课程总结与展望
后训练技术完整图谱回顾,从 SFT 到 GRPO 的完整路径,以及后训练领域的前沿研究方向
后训练技术全景图
经过 6 次课的学习,我们已经走完了后训练的完整路径。以下是后训练技术的全景图:
┌─────────────────────────────────────────────────────────────────┐
│ 大语言模型后训练技术图谱 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 预训练基座模型(Base Model) │
│ │ │
│ ▼ │
│ ┌─────────────────────────────────────┐ │
│ │ Stage 1: 监督微调(SFT) │ ← 第1-2课 │
│ │ · 指令跟随能力 │ │
│ │ · ChatML 格式化 │ │
│ │ · LoRA / QLoRA 参数高效训练 │ │
│ │ · 数据工程与质量控制 │ │
│ └───────────────┬─────────────────────┘ │
│ │ │
│ ┌──────────┼──────────┐ │
│ ▼ ▼ ▼ │
│ ┌─────────┐ ┌─────────┐ ┌──────────────┐ │
│ │ DPO │ │ SimPO │ │ KTO / ORPO │ ← 第3课 │
│ │ 偏好对齐 │ │ 无参考 │ │ 其他变体 │ │
│ └────┬────┘ └────┬────┘ └──────┬───────┘ │
│ └──────────┬┘─────────────┘ │
│ ▼ │
│ ┌─────────────────────────────────────┐ │
│ │ Stage 3: 推理强化学习 │ ← 第4课 │
│ │ · GRPO / RLVR │ │
│ │ · 可验证奖励 │ │
│ │ · 推理能力涌现 │ │
│ └───────────────┬─────────────────────┘ │
│ │ │
│ ┌──────────┼──────────┬───────────┐ │
│ ▼ ▼ ▼ ▼ │
│ ┌────────┐ ┌────────┐ ┌────────┐ ┌─────────┐ │
│ │ 量化 │ │ 蒸馏 │ │ 多模态 │ │ 工具使用│ ← 第5课 │
│ │ 压缩 │ │ 迁移 │ │ 扩展 │ │ 智能体 │ │
│ └────────┘ └────────┘ └────────┘ └─────────┘ │
│ │
│ ───────────────────────────────────────────────── │
│ 第6课: 综合项目 — 结合至少两种技术的真实场景应用 │
└─────────────────────────────────────────────────────────────────┘各技术回顾
第 1-2 课:监督微调(SFT)——"教模型说话"
SFT 是后训练的起点和基石。它将一个只会续写文本的基座模型,转变为能够理解指令、按格式回复的对话助手。
核心要点回顾:
| 知识点 | 要点 |
|---|---|
| 训练目标 | 交叉熵损失,仅在 assistant token 上计算(masked loss) |
| 数据格式 | ChatML 模板,正确处理 system/user/assistant 角色标记 |
| 参数高效 | LoRA(秩 、alpha、目标层)、QLoRA(NF4 + LoRA) |
| 数据质量 | LIMA 原则:1K 高质量 > 50K 噪声;去重、去污染、难度分级 |
| 评估方法 | LLM-as-Judge(MT-Bench)、能力基准(GSM8K、MMLU)、安全评估 |
Qwen3 四阶段后训练中的对应:Stage 1 — 冷启动 SFT(使用长思维链数据)
第 3 课:偏好对齐(DPO/SimPO)——"教模型选择"
DPO 及其变体解决了 SFT 无法解决的问题——如何在多个可能的回复之间做出更好的选择。
核心要点回顾:
| 知识点 | 要点 |
|---|---|
| 动机 | SFT 教"说什么",DPO 教"选什么";人类偏好是比较性的 |
| DPO 推导 | RLHF 目标 → KL 约束最优策略 → 重参数化奖励 → 消去配分函数 |
| DPO 公式 | |
| SimPO | 无参考模型,用平均 log 概率作为隐式奖励 |
| 关键参数 | :过大则保守,过小则偏离参考模型太远 |
Qwen3 四阶段后训练中的对应:Stage 4 — 通用 RL(包含偏好对齐)
第 4 课:推理强化学习(GRPO)——"教模型思考"
GRPO 是本课程最具前沿性的内容。它展示了纯 RL 训练如何在基座模型中涌现出推理能力——这是 DeepSeek-R1 的核心突破。
核心要点回顾:
| 知识点 | 要点 |
|---|---|
| RLHF 流程 | SFT → 奖励模型 → PPO 优化(四模型架构) |
| GRPO 创新 | 用组内统计量替代价值网络,省去 critic 模型,内存减少约 50% |
| RLVR | 可验证奖励的 RL——数学正确性、代码执行结果作为奖励 |
| 推理涌现 | 思维链、自我验证、回溯修正——不是教出来的,而是涌现出来的 |
| DeepSeek-R1 | 纯 RL → R1-Zero → 冷启动 SFT + GRPO → 蒸馏系列 |
GRPO 算法核心:
Qwen3 四阶段后训练中的对应:Stage 2 — 推理 RL(数学/代码任务上的 GRPO)
第 5 课:压缩部署与能力扩展——"让模型实用"
第 5 课将训练好的模型推向实际应用——量化压缩降低部署成本,蒸馏迁移推理能力,多模态和工具使用扩展能力边界。
核心要点回顾:
| 知识点 | 要点 |
|---|---|
| 量化 | PTQ 四方法:LLM.int8()、NF4、GPTQ、AWQ |
| 蒸馏 | 黑盒蒸馏 = 强模型输出 + 弱模型 SFT |
| 多模态 | VLM 架构(ViT + 投影 + LLM)、LLaVA 两阶段训练 |
| 工具使用 | JSON Schema 函数调用、约束解码、智能体循环 |
| 知识编辑 | 参数编辑(ROME)vs RAG(检索增强) |
Qwen3 四阶段后训练中的对应:Stage 3 — 思考模式融合(蒸馏思想)
Qwen3 四阶段后训练 — 课程知识的工业级实践
Qwen3 的后训练流程完美对应了本课程的技术体系:
| Qwen3 阶段 | 课程对应 | 方法 | 目的 |
|---|---|---|---|
| Stage 1:冷启动 SFT | 第 1-2 课 | 长思维链数据 SFT | 建立推理格式基础 |
| Stage 2:推理 RL | 第 4 课 | GRPO on math/code | 强化推理能力 |
| Stage 3:思考模式融合 | 第 5 课(蒸馏) | 自蒸馏 + 混合训练 | 统一 thinking/non-thinking |
| Stage 4:通用 RL | 第 3-4 课 | DPO + RL | 全面提升所有能力 |
这四个阶段的顺序不是任意的——每一步都依赖前一步的结果。SFT 建立格式基础 → RL 强化推理能力 → 蒸馏融合两种模式 → 最终 RL 全面优化。理解这个流程的设计逻辑,比掌握任何单一技术都更重要。
后训练方法选择决策树
在实际项目中,如何选择合适的后训练方法?以下决策树供参考:
你的目标是什么?
│
├─ 让模型遵循指令 ─────────→ SFT(第1-2课)
│ └─ 数据质量够高吗?
│ ├─ 是 → 直接 SFT
│ └─ 否 → 先用强模型蒸馏数据,再 SFT
│
├─ 让模型更安全/更有用 ────→ DPO/SimPO(第3课)
│ └─ 有成对偏好数据吗?
│ ├─ 是 → DPO
│ ├─ 只有评分 → KTO
│ └─ 想省参考模型 → SimPO
│
├─ 让模型学会推理 ─────────→ GRPO/RLVR(第4课)
│ └─ 任务有确定性答案吗?
│ ├─ 是(数学/代码)→ RLVR
│ └─ 否 → 需要训练奖励模型 → RLHF
│
├─ 降低部署成本 ──────────→ 量化/蒸馏(第5课)
│ └─ 目标精度要求?
│ ├─ 几乎无损 → INT8
│ ├─ 可接受小幅损失 → INT4 (AWQ/GPTQ)
│ └─ 极致压缩 → QAT or 蒸馏到更小模型
│
└─ 扩展新能力 ────────────→ 能力扩展(第5课)
├─ 视觉理解 → VLM 两阶段训练
├─ 工具使用 → 函数调用 SFT
└─ 知识更新 → RAG(首选)或参数编辑前沿方向展望
后训练是当前 LLM 研究最活跃的领域之一。以下是值得关注的前沿方向:
1. 更高效的 RL 算法
当前 GRPO 仍需大量采样(每个 prompt 采样 8-16 个回复),计算成本高。新方向:
| 方法 | 创新点 | 论文 |
|---|---|---|
| DAPO | Clip-higher、动态采样、token 级损失 | ByteDance, 2025 |
| Dr. GRPO | 去除长度偏差,更公平的奖励归一化 | MIT, 2025 |
| REINFORCE++ | 简化 PPO,去除 critic 网络,更稳定 | 2025 |
| Online DPO | 在线生成偏好数据的 DPO,兼顾探索与利用 | 2024 |
核心问题:如何在更少的采样次数下获得同等质量的 RL 训练?如何让 RL 训练像 SFT 一样简单?
2. 多模态推理
当前的推理能力主要在纯文本领域。将推理能力扩展到视觉、音频等多模态输入是重要方向:
- 视觉推理:在图表、几何图形上进行逐步推理
- 跨模态推理:结合文本和图像信息做复杂决策
- 视频理解:对长视频内容进行时序推理
代表工作:Qwen3-VL、GPT-4o、Gemini 2.0
3. 长上下文训练
随着上下文窗口扩展到 128K-1M token,后训练也面临新挑战:
- 如何在长上下文中保持注意力?
- 长文档的 SFT 数据如何构建?
- KV 缓存的量化压缩
- 位置编码外推(RoPE scaling、YaRN)
4. 自我改进(Self-Improvement)
让模型自己生成训练数据来改进自身,减少对人类标注的依赖:
| 方法 | 思路 | 挑战 |
|---|---|---|
| Self-Play | 模型与自身博弈,发现新策略 | 可能收敛到局部最优 |
| 自我蒸馏 | 用模型的最佳输出训练自身 | 需要可靠的质量过滤 |
| Constitutional AI | 让模型自己评判回复质量 | 自我评判的可靠性 |
| SPIN | 自我博弈优化 | 理论收敛保证 |
5. 合成数据的质量与规模化
合成数据已成为后训练的核心资源。前沿问题:
- 质量控制:如何自动评估合成数据的质量?
- 多样性:如何避免合成数据的模式坍缩?
- 规模化:如何高效生成百万级别的高质量训练数据?
- 去污染:如何确保合成数据不包含评估集内容?
代表方法:MAGPIE、Evol-Instruct、Self-Instruct、WizardLM
6. 安全与可控性
随着模型能力增强,安全问题变得更加紧迫:
- 可控生成:精确控制模型的行为边界
- 可解释性:理解模型为什么做出某个选择
- 红队测试:系统化地发现模型漏洞
- 多目标对齐:同时优化有用性、安全性、诚实性
写在最后
后训练是将"博学的语言模型"转化为"实用的 AI 助手"的关键桥梁。在本课程中,我们系统学习了这座桥梁的每一个构件:
- SFT 打下了对话的基础
- DPO 教会了模型做出更好的选择
- GRPO 让推理能力得以涌现
- 量化与蒸馏 使部署成为可能
- 多模态和工具使用 扩展了能力边界
更重要的是,我们学习了如何将这些技术组合起来——这不是简单的叠加,而是需要理解每种技术的作用域、局限性和相互关系。
后训练领域的一个核心趋势:从"人类标注驱动"转向"自动化驱动"。早期的 RLHF 依赖大量人类标注者;DPO 减少了对在线 RL 的需求;GRPO/RLVR 用可验证奖励替代了人类判断;合成数据进一步减少了人工参与。这个趋势仍在加速——未来的后训练可能会更加自动化、高效和可扩展。
后训练技术正在快速演进。我们在课程中学到的具体方法可能在一两年后被更新的方法取代,但理解这些方法背后的设计思想——为什么需要对齐、如何设计奖励、怎样在效率和质量之间权衡——这些思考方式将长期有价值。
希望本课程为你打开了后训练领域的大门。接下来的探索,就交给你了。