LLM 后训练实践
第6课:项目报告与总结

课程总结与展望

后训练技术完整图谱回顾,从 SFT 到 GRPO 的完整路径,以及后训练领域的前沿研究方向

后训练技术全景图

经过 6 次课的学习,我们已经走完了后训练的完整路径。以下是后训练技术的全景图:

┌─────────────────────────────────────────────────────────────────┐
│                    大语言模型后训练技术图谱                        │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  预训练基座模型(Base Model)                                     │
│       │                                                         │
│       ▼                                                         │
│  ┌─────────────────────────────────────┐                        │
│  │  Stage 1: 监督微调(SFT)           │  ← 第1-2课              │
│  │  · 指令跟随能力                      │                        │
│  │  · ChatML 格式化                     │                        │
│  │  · LoRA / QLoRA 参数高效训练          │                        │
│  │  · 数据工程与质量控制                 │                        │
│  └───────────────┬─────────────────────┘                        │
│                  │                                               │
│       ┌──────────┼──────────┐                                    │
│       ▼          ▼          ▼                                    │
│  ┌─────────┐ ┌─────────┐ ┌──────────────┐                      │
│  │  DPO    │ │ SimPO   │ │  KTO / ORPO  │  ← 第3课              │
│  │ 偏好对齐 │ │ 无参考   │ │  其他变体    │                       │
│  └────┬────┘ └────┬────┘ └──────┬───────┘                      │
│       └──────────┬┘─────────────┘                                │
│                  ▼                                                │
│  ┌─────────────────────────────────────┐                        │
│  │  Stage 3: 推理强化学习               │  ← 第4课               │
│  │  · GRPO / RLVR                      │                        │
│  │  · 可验证奖励                        │                        │
│  │  · 推理能力涌现                      │                        │
│  └───────────────┬─────────────────────┘                        │
│                  │                                               │
│       ┌──────────┼──────────┬───────────┐                       │
│       ▼          ▼          ▼           ▼                        │
│  ┌────────┐ ┌────────┐ ┌────────┐ ┌─────────┐                  │
│  │ 量化   │ │ 蒸馏   │ │ 多模态 │ │ 工具使用│  ← 第5课         │
│  │ 压缩   │ │ 迁移   │ │ 扩展   │ │ 智能体  │                  │
│  └────────┘ └────────┘ └────────┘ └─────────┘                  │
│                                                                 │
│  ─────────────────────────────────────────────────              │
│  第6课: 综合项目 — 结合至少两种技术的真实场景应用                   │
└─────────────────────────────────────────────────────────────────┘

各技术回顾

第 1-2 课:监督微调(SFT)——"教模型说话"

SFT 是后训练的起点和基石。它将一个只会续写文本的基座模型,转变为能够理解指令、按格式回复的对话助手。

核心要点回顾

知识点要点
训练目标交叉熵损失,仅在 assistant token 上计算(masked loss)
数据格式ChatML 模板,正确处理 system/user/assistant 角色标记
参数高效LoRA(秩 rr、alpha、目标层)、QLoRA(NF4 + LoRA)
数据质量LIMA 原则:1K 高质量 > 50K 噪声;去重、去污染、难度分级
评估方法LLM-as-Judge(MT-Bench)、能力基准(GSM8K、MMLU)、安全评估

Qwen3 四阶段后训练中的对应:Stage 1 — 冷启动 SFT(使用长思维链数据)

LSFT=tassistantlogPθ(xtx<t)\mathcal{L}_{\text{SFT}} = -\sum_{t \in \text{assistant}} \log P_\theta(x_t | x_{<t})

第 3 课:偏好对齐(DPO/SimPO)——"教模型选择"

DPO 及其变体解决了 SFT 无法解决的问题——如何在多个可能的回复之间做出更好的选择

核心要点回顾

知识点要点
动机SFT 教"说什么",DPO 教"选什么";人类偏好是比较性的
DPO 推导RLHF 目标 → KL 约束最优策略 → 重参数化奖励 → 消去配分函数
DPO 公式L=logσ(β[logπθ(ywx)πref(ywx)logπθ(ylx)πref(ylx)])\mathcal{L} = -\log\sigma(\beta[\log\frac{\pi_\theta(y_w \mid x)}{\pi_{\text{ref}}(y_w \mid x)} - \log\frac{\pi_\theta(y_l \mid x)}{\pi_{\text{ref}}(y_l \mid x)}])
SimPO无参考模型,用平均 log 概率作为隐式奖励
关键参数β\beta:过大则保守,过小则偏离参考模型太远

Qwen3 四阶段后训练中的对应:Stage 4 — 通用 RL(包含偏好对齐)

第 4 课:推理强化学习(GRPO)——"教模型思考"

GRPO 是本课程最具前沿性的内容。它展示了纯 RL 训练如何在基座模型中涌现出推理能力——这是 DeepSeek-R1 的核心突破。

核心要点回顾

知识点要点
RLHF 流程SFT → 奖励模型 → PPO 优化(四模型架构)
GRPO 创新用组内统计量替代价值网络,省去 critic 模型,内存减少约 50%
RLVR可验证奖励的 RL——数学正确性、代码执行结果作为奖励
推理涌现思维链、自我验证、回溯修正——不是教出来的,而是涌现出来的
DeepSeek-R1纯 RL → R1-Zero → 冷启动 SFT + GRPO → 蒸馏系列

GRPO 算法核心

A^i=rimean(r)std(r),r={r1,r2,,rG}\hat{A}_i = \frac{r_i - \text{mean}(\mathbf{r})}{\text{std}(\mathbf{r})}, \quad \mathbf{r} = \{r_1, r_2, \ldots, r_G\}

Qwen3 四阶段后训练中的对应:Stage 2 — 推理 RL(数学/代码任务上的 GRPO)

第 5 课:压缩部署与能力扩展——"让模型实用"

第 5 课将训练好的模型推向实际应用——量化压缩降低部署成本,蒸馏迁移推理能力,多模态和工具使用扩展能力边界。

核心要点回顾

知识点要点
量化PTQ 四方法:LLM.int8()、NF4、GPTQ、AWQ
蒸馏黑盒蒸馏 = 强模型输出 + 弱模型 SFT
多模态VLM 架构(ViT + 投影 + LLM)、LLaVA 两阶段训练
工具使用JSON Schema 函数调用、约束解码、智能体循环
知识编辑参数编辑(ROME)vs RAG(检索增强)

Qwen3 四阶段后训练中的对应:Stage 3 — 思考模式融合(蒸馏思想)

Qwen3 四阶段后训练 — 课程知识的工业级实践

Qwen3 的后训练流程完美对应了本课程的技术体系:

Qwen3 阶段课程对应方法目的
Stage 1:冷启动 SFT第 1-2 课长思维链数据 SFT建立推理格式基础
Stage 2:推理 RL第 4 课GRPO on math/code强化推理能力
Stage 3:思考模式融合第 5 课(蒸馏)自蒸馏 + 混合训练统一 thinking/non-thinking
Stage 4:通用 RL第 3-4 课DPO + RL全面提升所有能力

这四个阶段的顺序不是任意的——每一步都依赖前一步的结果。SFT 建立格式基础 → RL 强化推理能力 → 蒸馏融合两种模式 → 最终 RL 全面优化。理解这个流程的设计逻辑,比掌握任何单一技术都更重要。

后训练方法选择决策树

在实际项目中,如何选择合适的后训练方法?以下决策树供参考:

你的目标是什么?

├─ 让模型遵循指令 ─────────→ SFT(第1-2课)
│   └─ 数据质量够高吗?
│       ├─ 是 → 直接 SFT
│       └─ 否 → 先用强模型蒸馏数据,再 SFT

├─ 让模型更安全/更有用 ────→ DPO/SimPO(第3课)
│   └─ 有成对偏好数据吗?
│       ├─ 是 → DPO
│       ├─ 只有评分 → KTO
│       └─ 想省参考模型 → SimPO

├─ 让模型学会推理 ─────────→ GRPO/RLVR(第4课)
│   └─ 任务有确定性答案吗?
│       ├─ 是(数学/代码)→ RLVR
│       └─ 否 → 需要训练奖励模型 → RLHF

├─ 降低部署成本 ──────────→ 量化/蒸馏(第5课)
│   └─ 目标精度要求?
│       ├─ 几乎无损 → INT8
│       ├─ 可接受小幅损失 → INT4 (AWQ/GPTQ)
│       └─ 极致压缩 → QAT or 蒸馏到更小模型

└─ 扩展新能力 ────────────→ 能力扩展(第5课)
    ├─ 视觉理解 → VLM 两阶段训练
    ├─ 工具使用 → 函数调用 SFT
    └─ 知识更新 → RAG(首选)或参数编辑

前沿方向展望

后训练是当前 LLM 研究最活跃的领域之一。以下是值得关注的前沿方向:

1. 更高效的 RL 算法

当前 GRPO 仍需大量采样(每个 prompt 采样 8-16 个回复),计算成本高。新方向:

方法创新点论文
DAPOClip-higher、动态采样、token 级损失ByteDance, 2025
Dr. GRPO去除长度偏差,更公平的奖励归一化MIT, 2025
REINFORCE++简化 PPO,去除 critic 网络,更稳定2025
Online DPO在线生成偏好数据的 DPO,兼顾探索与利用2024

核心问题:如何在更少的采样次数下获得同等质量的 RL 训练?如何让 RL 训练像 SFT 一样简单?

2. 多模态推理

当前的推理能力主要在纯文本领域。将推理能力扩展到视觉、音频等多模态输入是重要方向:

  • 视觉推理:在图表、几何图形上进行逐步推理
  • 跨模态推理:结合文本和图像信息做复杂决策
  • 视频理解:对长视频内容进行时序推理

代表工作:Qwen3-VL、GPT-4o、Gemini 2.0

3. 长上下文训练

随着上下文窗口扩展到 128K-1M token,后训练也面临新挑战:

  • 如何在长上下文中保持注意力?
  • 长文档的 SFT 数据如何构建?
  • KV 缓存的量化压缩
  • 位置编码外推(RoPE scaling、YaRN)

4. 自我改进(Self-Improvement)

让模型自己生成训练数据来改进自身,减少对人类标注的依赖:

方法思路挑战
Self-Play模型与自身博弈,发现新策略可能收敛到局部最优
自我蒸馏用模型的最佳输出训练自身需要可靠的质量过滤
Constitutional AI让模型自己评判回复质量自我评判的可靠性
SPIN自我博弈优化理论收敛保证

5. 合成数据的质量与规模化

合成数据已成为后训练的核心资源。前沿问题:

  • 质量控制:如何自动评估合成数据的质量?
  • 多样性:如何避免合成数据的模式坍缩?
  • 规模化:如何高效生成百万级别的高质量训练数据?
  • 去污染:如何确保合成数据不包含评估集内容?

代表方法:MAGPIE、Evol-Instruct、Self-Instruct、WizardLM

6. 安全与可控性

随着模型能力增强,安全问题变得更加紧迫:

  • 可控生成:精确控制模型的行为边界
  • 可解释性:理解模型为什么做出某个选择
  • 红队测试:系统化地发现模型漏洞
  • 多目标对齐:同时优化有用性、安全性、诚实性

写在最后

后训练是将"博学的语言模型"转化为"实用的 AI 助手"的关键桥梁。在本课程中,我们系统学习了这座桥梁的每一个构件:

  • SFT 打下了对话的基础
  • DPO 教会了模型做出更好的选择
  • GRPO 让推理能力得以涌现
  • 量化与蒸馏 使部署成为可能
  • 多模态和工具使用 扩展了能力边界

更重要的是,我们学习了如何将这些技术组合起来——这不是简单的叠加,而是需要理解每种技术的作用域、局限性和相互关系。

后训练领域的一个核心趋势:从"人类标注驱动"转向"自动化驱动"。早期的 RLHF 依赖大量人类标注者;DPO 减少了对在线 RL 的需求;GRPO/RLVR 用可验证奖励替代了人类判断;合成数据进一步减少了人工参与。这个趋势仍在加速——未来的后训练可能会更加自动化、高效和可扩展。

后训练技术正在快速演进。我们在课程中学到的具体方法可能在一两年后被更新的方法取代,但理解这些方法背后的设计思想——为什么需要对齐、如何设计奖励、怎样在效率和质量之间权衡——这些思考方式将长期有价值。

希望本课程为你打开了后训练领域的大门。接下来的探索,就交给你了。