课程总览

大语言模型后训练实践——北京大学软件与微电子学院研究生课程

课程简介

后训练（Post-Training）是将预训练语言模型转化为实用、安全且具备推理能力的助手的关键阶段。尽管其计算量仅占预训练的 5% 左右，却决定了模型能否真正可用。

本课程面向研究生，系统讲授后训练的核心技术：

监督微调（SFT）：教模型"怎么说话"——学会遵循指令、按格式回复
偏好对齐（DPO/RLHF）：教模型"怎么选择"——在多个可能的回复中选择更好的
推理强化学习（GRPO/RLVR）：教模型"怎么思考"——发展逐步推理和自我验证能力
模型压缩与部署：量化、蒸馏、多模态扩展等实用技能

课程信息


课程名称	大语言模型后训练实践
课号	01714806
学分	1
课程类型	考查课
学期	2026 年春季
开课单位	北京大学软件与微电子学院
授课教师	高志军
上课时间	每周三 18:00 - 21:00
授课形式	6 次课 × 3 小时（讲授 60% + 上机实践 40%）
授课语言	中文

| 计算资源 | 推荐 AutoDL 租用 A100-40G/80G（学期总费用约 150 元/人） |

课程设计理念

以生成式模型为主线。课程从第 1 课起即围绕解码器架构（decoder-only）的生成式大模型展开，所有实验使用统一的 Qwen3 模型系列，保持技术栈的一致性。Qwen3 提供从 0.6B 到 32B 的完整密集模型梯度以及 30B-A3B 的 MoE 模型，且同时提供 Base 和 Instruct 版本，非常适合教学中"从基座到对齐"的全流程演示。

理论联系前沿。课程内容覆盖至 2025 年的最新进展，包括 DeepSeek-R1 的推理涌现、GRPO 算法、SimPO 无参考模型对齐等。Qwen3 自身的四阶段后训练流程即为课程技术体系的绝佳案例。

计算资源友好。所有实验均基于参数高效微调（LoRA/QLoRA），单张 A100-40G 即可完成大部分实验。

课次	模型	数据集	核心算法
1	Qwen3-1.7B	UltraChat-200K	SFT + QLoRA
2	Qwen3-1.7B	中文指令数据集	SFT + LLM-as-Judge
3	Qwen3-1.7B (SFT)	UltraFeedback	DPO / SimPO
4	Qwen3-1.7B-Base	GSM8K	GRPO + RLVR
5	Qwen3-8B	多种	量化 + 蒸馏
6	自选	自选	综合

课程简介

课程信息

课程设计理念

课程安排

第 1 课：后训练概述与 SFT 基础

第 2 课：SFT 进阶

第 3 课：偏好对齐 DPO

第 4 课：RLHF 与 GRPO

第 5 课：压缩部署与扩展

第 6 课：项目报告与总结

技术路线图

核心模型

On this page