课程总览
大语言模型后训练实践——北京大学软件与微电子学院研究生课程
课程简介
后训练(Post-Training)是将预训练语言模型转化为实用、安全且具备推理能力的助手的关键阶段。尽管其计算量仅占预训练的 5% 左右,却决定了模型能否真正可用。
本课程面向研究生,系统讲授后训练的核心技术:
- 监督微调(SFT):教模型"怎么说话"——学会遵循指令、按格式回复
- 偏好对齐(DPO/RLHF):教模型"怎么选择"——在多个可能的回复中选择更好的
- 推理强化学习(GRPO/RLVR):教模型"怎么思考"——发展逐步推理和自我验证能力
- 模型压缩与部署:量化、蒸馏、多模态扩展等实用技能
课程信息
| 课程名称 | 大语言模型后训练实践 |
| 课号 | 01714806 |
| 学分 | 1 |
| 课程类型 | 考查课 |
| 学期 | 2026 年春季 |
| 开课单位 | 北京大学软件与微电子学院 |
| 授课教师 | 高志军 |
| 上课时间 | 每周三晚 |
| 授课形式 | 6 次课 × 3 小时(讲授 60% + 上机实践 40%) |
| 授课语言 | 中文 |
| 计算资源 | 推荐 AutoDL 租用 A100-40G/80G(学期总费用约 150 元/人) |
课程设计理念
以生成式模型为主线。课程从第 1 课起即围绕解码器架构(decoder-only)的生成式大模型展开,所有实验使用统一的 Qwen3 模型系列,保持技术栈的一致性。Qwen3 提供从 0.6B 到 32B 的完整密集模型梯度以及 30B-A3B 的 MoE 模型,且同时提供 Base 和 Instruct 版本,非常适合教学中"从基座到对齐"的全流程演示。
理论联系前沿。课程内容覆盖至 2025 年的最新进展,包括 DeepSeek-R1 的推理涌现、GRPO 算法、SimPO 无参考模型对齐等。Qwen3 自身的四阶段后训练流程即为课程技术体系的绝佳案例。
计算资源友好。所有实验均基于参数高效微调(LoRA/QLoRA),单张 A100-40G 即可完成大部分实验。
课程进度
第 1 课:后训练概述与 SFT 基础
三阶段流程、ChatML 格式、LoRA/QLoRA、模型评估
第 2 课:SFT 进阶
指令数据集构建、超参数指南、LLM-as-Judge 评估
第 3 课:偏好对齐 DPO
DPO 推导、SimPO/KTO/ORPO 变体、实践考量
第 4 课:RLHF 与 GRPO
InstructGPT 三阶段、GRPO 算法、推理涌现、工程工具
第 5 课:压缩部署与扩展
量化方法、知识蒸馏、多模态/工具使用/知识编辑
第 6 课:项目报告与总结
项目方向、演示指南、课程总结与展望
技术路线图
基座模型 → SFT(学会说话)→ DPO/RLHF(学会选择)→ GRPO/RLVR(学会思考)
↓
量化/蒸馏(高效部署)
多模态(学会看)
工具使用(学会行动)核心模型
本课程使用 Qwen3 系列模型——该系列内置思考模式(thinking mode)与非思考模式(non-thinking mode)的无缝切换(/think 和 /no_think),是学习后训练技术的理想载体。
| 课次 | 模型 | 数据集 | 核心算法 |
|---|---|---|---|
| 1 | Qwen3-1.7B | UltraChat-200K | SFT + QLoRA |
| 2 | Qwen3-1.7B | 中文指令数据集 | SFT + LLM-as-Judge |
| 3 | Qwen3-1.7B (SFT) | UltraFeedback | DPO / SimPO |
| 4 | Qwen3-1.7B-Base | GSM8K | GRPO + RLVR |
| 5 | Qwen3-8B | 多种 | 量化 + 蒸馏 |
| 6 | 自选 | 自选 | 综合 |