课程总结与展望

后训练技术完整图谱回顾，从 SFT 到 GRPO 的完整路径，以及后训练领域的前沿研究方向

后训练技术全景图

经过 6 次课的学习，我们已经走完了后训练的完整路径。以下是后训练技术的全景图：

各技术回顾

第 1-2 课：监督微调（SFT）——"教模型说话"

SFT 是后训练的起点和基石。它将一个只会续写文本的基座模型，转变为能够理解指令、按格式回复的对话助手。

核心要点回顾：

知识点	要点
训练目标	交叉熵损失，仅在 assistant token 上计算（masked loss）
数据格式	ChatML 模板，正确处理 system/user/assistant 角色标记
参数高效	LoRA（秩 $r$ 、alpha、目标层）、QLoRA（NF4 + LoRA）
数据质量	LIMA 原则：1K 高质量 > 50K 噪声；去重、去污染、难度分级
评估方法	LLM-as-Judge（MT-Bench）、能力基准（GSM8K、MMLU）、安全评估

Qwen3 四阶段后训练中的对应：Stage 1 — 冷启动 SFT（使用长思维链数据）

\mathcal{L}_{\text{SFT}} = -\sum_{t \in \text{assistant}} \log P_\theta(x_t | x_{<t})

第 3 课：偏好对齐（DPO/SimPO）——"教模型选择"

DPO 及其变体解决了 SFT 无法解决的问题——如何在多个可能的回复之间做出更好的选择。

核心要点回顾：

知识点	要点
动机	SFT 教"说什么"，DPO 教"选什么"；人类偏好是比较性的
DPO 推导	RLHF 目标 → KL 约束最优策略 → 重参数化奖励 → 消去配分函数
DPO 公式	$\mathcal{L} = -\log\sigma(\beta[\log\frac{\pi_\theta(y_w \mid x)}{\pi_{\text{ref}}(y_w \mid x)} - \log\frac{\pi_\theta(y_l \mid x)}{\pi_{\text{ref}}(y_l \mid x)}])$
SimPO	无参考模型，用平均 log 概率作为隐式奖励
关键参数	$\beta$ ：过大则保守，过小则偏离参考模型太远

Qwen3 四阶段后训练中的对应：Stage 4 — 通用 RL（包含偏好对齐）

第 4 课：推理强化学习（GRPO）——"教模型思考"

GRPO 是本课程最具前沿性的内容。它展示了纯 RL 训练如何在基座模型中涌现出推理能力——这是 DeepSeek-R1 的核心突破。

核心要点回顾：

知识点	要点
RLHF 流程	SFT → 奖励模型 → PPO 优化（四模型架构）
GRPO 创新	用组内统计量替代价值网络，省去 critic 模型，内存减少约 50%
RLVR	可验证奖励的 RL——数学正确性、代码执行结果作为奖励
推理涌现	思维链、自我验证、回溯修正——不是教出来的，而是涌现出来的
DeepSeek-R1	纯 RL → R1-Zero → 冷启动 SFT + GRPO → 蒸馏系列

GRPO 算法核心：

\hat{A}_i = \frac{r_i - \text{mean}(\mathbf{r})}{\text{std}(\mathbf{r})}, \quad \mathbf{r} = \{r_1, r_2, \ldots, r_G\}

Qwen3 四阶段后训练中的对应：Stage 2 — 推理 RL（数学/代码任务上的 GRPO）

第 5 课：压缩部署与能力扩展——"让模型实用"

第 5 课将训练好的模型推向实际应用——量化压缩降低部署成本，蒸馏迁移推理能力，多模态和工具使用扩展能力边界。

核心要点回顾：

知识点	要点
量化	PTQ 四方法：LLM.int8()、NF4、GPTQ、AWQ
蒸馏	黑盒蒸馏 = 强模型输出 + 弱模型 SFT
多模态	VLM 架构（ViT + 投影 + LLM）、LLaVA 两阶段训练
工具使用	JSON Schema 函数调用、约束解码、智能体循环
知识编辑	参数编辑（ROME）vs RAG（检索增强）

Qwen3 四阶段后训练中的对应：Stage 3 — 思考模式融合（蒸馏思想）

Qwen3 四阶段后训练 — 课程知识的工业级实践

Qwen3 的后训练流程完美对应了本课程的技术体系：

Qwen3 阶段	课程对应	方法	目的
Stage 1：冷启动 SFT	第 1-2 课	长思维链数据 SFT	建立推理格式基础
Stage 2：推理 RL	第 4 课	GRPO on math/code	强化推理能力
Stage 3：思考模式融合	第 5 课（蒸馏）	自蒸馏 + 混合训练	统一 thinking/non-thinking
Stage 4：通用 RL	第 3-4 课	DPO + RL	全面提升所有能力

这四个阶段的顺序不是任意的——每一步都依赖前一步的结果。SFT 建立格式基础 → RL 强化推理能力 → 蒸馏融合两种模式 → 最终 RL 全面优化。理解这个流程的设计逻辑，比掌握任何单一技术都更重要。

后训练方法选择决策树

在实际项目中，如何选择合适的后训练方法？以下决策树供参考：

前沿方向展望

后训练是当前 LLM 研究最活跃的领域之一。以下是值得关注的前沿方向：

1. 更高效的 RL 算法

当前 GRPO 仍需大量采样（每个 prompt 采样 8-16 个回复），计算成本高。新方向：

方法	创新点	论文
DAPO	Clip-higher、动态采样、token 级损失	ByteDance, 2025
Dr. GRPO	去除长度偏差，更公平的奖励归一化	MIT, 2025
REINFORCE++	简化 PPO，去除 critic 网络，更稳定	2025
Online DPO	在线生成偏好数据的 DPO，兼顾探索与利用	2024

核心问题：如何在更少的采样次数下获得同等质量的 RL 训练？如何让 RL 训练像 SFT 一样简单？

2. 多模态推理

当前的推理能力主要在纯文本领域。将推理能力扩展到视觉、音频等多模态输入是重要方向：

视觉推理：在图表、几何图形上进行逐步推理
跨模态推理：结合文本和图像信息做复杂决策
视频理解：对长视频内容进行时序推理

代表工作：Qwen3-VL、GPT-4o、Gemini 2.0

3. 长上下文训练

随着上下文窗口扩展到 128K-1M token，后训练也面临新挑战：

如何在长上下文中保持注意力？
长文档的 SFT 数据如何构建？
KV 缓存的量化压缩
位置编码外推（RoPE scaling、YaRN）

4. 自我改进（Self-Improvement）

让模型自己生成训练数据来改进自身，减少对人类标注的依赖：

方法	思路	挑战
Self-Play	模型与自身博弈，发现新策略	可能收敛到局部最优
自我蒸馏	用模型的最佳输出训练自身	需要可靠的质量过滤
Constitutional AI	让模型自己评判回复质量	自我评判的可靠性
SPIN	自我博弈优化	理论收敛保证

5. 合成数据的质量与规模化

合成数据已成为后训练的核心资源。前沿问题：

质量控制：如何自动评估合成数据的质量？
多样性：如何避免合成数据的模式坍缩？
规模化：如何高效生成百万级别的高质量训练数据？
去污染：如何确保合成数据不包含评估集内容？

代表方法：MAGPIE、Evol-Instruct、Self-Instruct、WizardLM

6. 安全与可控性

随着模型能力增强，安全问题变得更加紧迫：

可控生成：精确控制模型的行为边界
可解释性：理解模型为什么做出某个选择
红队测试：系统化地发现模型漏洞
多目标对齐：同时优化有用性、安全性、诚实性

写在最后

后训练是将"博学的语言模型"转化为"实用的 AI 助手"的关键桥梁。在本课程中，我们系统学习了这座桥梁的每一个构件：

SFT 打下了对话的基础
DPO 教会了模型做出更好的选择
GRPO 让推理能力得以涌现
量化与蒸馏 使部署成为可能
多模态和工具使用 扩展了能力边界

更重要的是，我们学习了如何将这些技术组合起来——这不是简单的叠加，而是需要理解每种技术的作用域、局限性和相互关系。

后训练领域的一个核心趋势：从"人类标注驱动"转向"自动化驱动"。早期的 RLHF 依赖大量人类标注者；DPO 减少了对在线 RL 的需求；GRPO/RLVR 用可验证奖励替代了人类判断；合成数据进一步减少了人工参与。这个趋势仍在加速——未来的后训练可能会更加自动化、高效和可扩展。

后训练技术正在快速演进。我们在课程中学到的具体方法可能在一两年后被更新的方法取代，但理解这些方法背后的设计思想——为什么需要对齐、如何设计奖励、怎样在效率和质量之间权衡——这些思考方式将长期有价值。

希望本课程为你打开了后训练领域的大门。接下来的探索，就交给你了。

On this page