北京大学软件与微电子学院 · 高志军 · 2026 春季 · 每周三晚上

大语言模型
后训练实践

基于 Qwen3 系列模型，实操 SFT、DPO、GRPO 等现代后训练技术。

1 学分 · 考查课6 次课 × 3 小时讲授 60% + 实践 40%Qwen3 模型

开始学习环境配置

课程内容

6 次课程，从微调到对齐到推理强化，完整覆盖后训练技术体系

后训练概述与 SFT 基础

理解后训练在 LLM 开发流程中的位置，掌握 SFT 训练循环与参数高效微调。

三阶段流程ChatMLLoRA/QLoRA模型评估

SFT 进阶：数据工程

掌握指令数据集构建与质量控制，实践从数据准备到系统评估的完整流程。

Self-InstructMAGPIE超参数调优LLM-as-Judge

偏好对齐：DPO 及其变体

从 RLHF 目标推导 DPO 损失函数，实现偏好对齐训练并对比变体。

DPO 推导SimPOKTOORPO

RLHF 与推理强化学习

理解完整 RLHF 流程，掌握 GRPO 算法，复现迷你 R1-Zero 实验。

PPOGRPODeepSeek-R1推理涌现

压缩部署与能力扩展

掌握量化方法与知识蒸馏，了解多模态和工具使用等扩展能力。

INT4/INT8GPTQ/AWQ蒸馏多模态/MCP

项目报告与课程总结

小组项目报告，回顾后训练完整技术体系，展望前沿方向。

项目演示技术图谱前沿展望

学习收获

掌握从微调到部署的完整后训练技术栈

🎯

监督微调 SFT

掌握指令数据构建、ChatML 格式、LoRA/QLoRA 参数高效微调

⚖️

偏好对齐 DPO

理解 DPO 数学推导，实现偏好对齐训练，对比 SimPO/KTO 变体

🧠

推理强化 GRPO

复现推理涌现实验，掌握可验证奖励的强化学习方法

🚀

部署优化

实践模型量化与蒸馏，了解多模态、工具使用等能力扩展

技术栈

基于主流开源框架，完成从微调到对齐到推理强化的全流程实践

Qwen3

Hugging Face TRL

PEFT

Transformers

vLLM

LLaMA-Factory

bitsandbytes

计算资源配置

推荐 AutoDL 租用 GPU，学期总费用约 100 元/人

配置等级	GPU 要求	适用模型	方法
最低配置	1× T4 16GB	Qwen3-0.6B / 1.7B	QLoRA 4-bit
标准配置（推荐）	1× A100-40G	Qwen3-1.7B / 4B	LoRA 16-bit
进阶配置	1× A100-80G	Qwen3-8B	LoRA 16-bit
高级项目	2× A100-80G	Qwen3-8B / 30B-A3B	GRPO/PPO + vLLM

准备好开始了吗？

从环境配置开始，踏上后训练学习之旅

开始学习评分标准

大语言模型后训练实践