LLM 后训练实践

课程总览

大语言模型后训练实践——北京大学软件与微电子学院研究生课程

课程简介

后训练(Post-Training)是将预训练语言模型转化为实用、安全且具备推理能力的助手的关键阶段。尽管其计算量仅占预训练的 5% 左右,却决定了模型能否真正可用。

本课程面向研究生,系统讲授后训练的核心技术:

  • 监督微调(SFT):教模型"怎么说话"——学会遵循指令、按格式回复
  • 偏好对齐(DPO/RLHF):教模型"怎么选择"——在多个可能的回复中选择更好的
  • 推理强化学习(GRPO/RLVR):教模型"怎么思考"——发展逐步推理和自我验证能力
  • 模型压缩与部署:量化、蒸馏、多模态扩展等实用技能

课程信息

课程名称大语言模型后训练实践
课号01714806
学分1
课程类型考查课
学期2026 年春季
开课单位北京大学软件与微电子学院
授课教师高志军
上课时间每周三晚
授课形式6 次课 × 3 小时(讲授 60% + 上机实践 40%)
授课语言中文

| 计算资源 | 推荐 AutoDL 租用 A100-40G/80G(学期总费用约 150 元/人) |

课程设计理念

以生成式模型为主线。课程从第 1 课起即围绕解码器架构(decoder-only)的生成式大模型展开,所有实验使用统一的 Qwen3 模型系列,保持技术栈的一致性。Qwen3 提供从 0.6B 到 32B 的完整密集模型梯度以及 30B-A3B 的 MoE 模型,且同时提供 Base 和 Instruct 版本,非常适合教学中"从基座到对齐"的全流程演示。

理论联系前沿。课程内容覆盖至 2025 年的最新进展,包括 DeepSeek-R1 的推理涌现、GRPO 算法、SimPO 无参考模型对齐等。Qwen3 自身的四阶段后训练流程即为课程技术体系的绝佳案例。

计算资源友好。所有实验均基于参数高效微调(LoRA/QLoRA),单张 A100-40G 即可完成大部分实验。

课程进度

技术路线图

基座模型 → SFT(学会说话)→ DPO/RLHF(学会选择)→ GRPO/RLVR(学会思考)

                                            量化/蒸馏(高效部署)
                                            多模态(学会看)
                                            工具使用(学会行动)

核心模型

本课程使用 Qwen3 系列模型——该系列内置思考模式(thinking mode)与非思考模式(non-thinking mode)的无缝切换(/think/no_think),是学习后训练技术的理想载体。

课次模型数据集核心算法
1Qwen3-1.7BUltraChat-200KSFT + QLoRA
2Qwen3-1.7B中文指令数据集SFT + LLM-as-Judge
3Qwen3-1.7B (SFT)UltraFeedbackDPO / SimPO
4Qwen3-1.7B-BaseGSM8KGRPO + RLVR
5Qwen3-8B多种量化 + 蒸馏
6自选自选综合