北京大学软件与微电子学院 · 高志军 · 2026 春季 · 每周三晚上

大语言模型
后训练实践

基于 Qwen3 系列模型,实操 SFT、DPO、GRPO 等现代后训练技术。

1 学分 · 考查课6 次课 × 3 小时讲授 60% + 实践 40%Qwen3 模型

学习收获

掌握从微调到部署的完整后训练技术栈

🎯

监督微调 SFT

掌握指令数据构建、ChatML 格式、LoRA/QLoRA 参数高效微调

⚖️

偏好对齐 DPO

理解 DPO 数学推导,实现偏好对齐训练,对比 SimPO/KTO 变体

🧠

推理强化 GRPO

复现推理涌现实验,掌握可验证奖励的强化学习方法

🚀

部署优化

实践模型量化与蒸馏,了解多模态、工具使用等能力扩展

技术栈

基于主流开源框架,完成从微调到对齐到推理强化的全流程实践

Qwen3
Hugging Face TRL
PEFT
Transformers
vLLM
LLaMA-Factory
bitsandbytes

计算资源配置

推荐 AutoDL 租用 GPU,学期总费用约 100 元/人

配置等级GPU 要求适用模型方法
最低配置1× T4 16GBQwen3-0.6B / 1.7BQLoRA 4-bit
标准配置(推荐)1× A100-40GQwen3-1.7B / 4BLoRA 16-bit
进阶配置1× A100-80GQwen3-8BLoRA 16-bit
高级项目2× A100-80GQwen3-8B / 30B-A3BGRPO/PPO + vLLM

准备好开始了吗?

从环境配置开始,踏上后训练学习之旅