LLM 后训练实践
第1课:后训练概述与SFT基础

1.1 后训练的定义与基本流程

理解 LLM 开发的三阶段流程,掌握后训练的核心方法体系,了解 Tülu 3 和 Qwen3 的后训练实践

LLM 开发的三阶段流程

现代大语言模型(LLM)的开发可以清晰地划分为三个阶段:

阶段一:预训练(Pre-training)

预训练是 LLM 的基础。在这一阶段,模型在万亿级 token 的大规模语料上进行下一个 token 预测(next-token prediction),学习语言知识和世界知识。

  • 计算量:极其巨大,通常需要数千张 GPU 训练数周到数月
  • 训练目标:标准的语言建模目标,最小化负对数似然
Lpretrain=t=1TlogPθ(xtx<t)\mathcal{L}_{\text{pretrain}} = -\sum_{t=1}^{T} \log P_\theta(x_t | x_{<t})
  • 产出:一个"博学但不听话"的基座模型(base model)——它拥有丰富的知识,但不会遵循人类指令、不懂对话格式、可能生成有害内容

以 Qwen3 为例:Qwen3 系列在约 36 万亿 token 上进行了预训练,涵盖 119 种语言和编程语言。预训练分为三个阶段(S1: 30T tokens, S2: 5T tokens, S3: 退火阶段),逐步提升数据质量。

阶段二:后训练(Post-training)

后训练是将基座模型转化为实用助手的关键阶段。通过 SFT、偏好对齐、强化学习等手段,赋予模型指令跟随、安全回复、推理思考等能力。

  • 计算量:仅占预训练的约 5%(以 DeepSeek-R1 为例),但决定了模型的实际可用性
  • 核心目标:让模型学会"怎么说话"、"怎么选择"、"怎么思考"
  • 产出:一个能遵循指令、安全有用的对齐模型(aligned model / instruct model)

阶段三:推理阶段(Inference)

模型部署后的优化和扩展阶段:

  • 部署优化:量化(INT8/INT4)、蒸馏、剪枝等方法减少模型体积和推理成本
  • 推理时计算扩展:思维链(Chain-of-Thought)、best-of-N 采样、树搜索等方法在推理时分配更多计算资源
预训练(数月,数千GPU)        后训练(数天,数十GPU)          推理(毫秒级)
┌─────────────────┐     ┌─────────────────────┐     ┌──────────────────┐
│  万亿级 token    │     │  SFT → DPO → GRPO   │     │  量化 / 蒸馏      │
│  下一个 token 预测 │ ──→ │  指令跟随、偏好对齐、  │ ──→ │  推理时计算扩展    │
│  基座模型        │     │  推理能力            │     │  部署服务         │
└─────────────────┘     └─────────────────────┘     └──────────────────┘
      ≈95% 成本                 ≈5% 成本                  面向用户

后训练的核心方法全景

后训练涵盖多种方法,按功能可分为四大类:

1. 监督微调(Supervised Fine-Tuning, SFT)

教模型"怎么说话"——学会遵循指令、按格式回复。

SFT 使用高质量的 (指令, 回复) 对来训练模型。模型学习的是:给定一个指令,如何生成符合期望的回复。这是后训练的第一步,也是其他所有方法的基础。

  • 输入:"用三句话介绍量子计算"
  • 期望输出:"量子计算利用量子力学原理进行信息处理..."

2. 偏好对齐(Preference Alignment: DPO/RLHF)

教模型"怎么选择"——在多个可能的回复中选择更好的。

SFT 后的模型可能生成多种回复,但并非所有回复都同样好。偏好对齐通过人类偏好数据("回复 A 优于回复 B")来教模型区分好坏:

  • RLHF(Reinforcement Learning from Human Feedback):训练奖励模型 + PPO 优化
  • DPO(Direct Preference Optimization):直接在偏好对上训练,无需奖励模型

3. 推理强化学习(Reasoning RL: GRPO/RLVR)

教模型"怎么思考"——发展逐步推理和自我验证能力。

这是 2024-2025 年最激动人心的进展。通过可验证奖励(如数学答案的正确性),模型在纯强化学习中自发涌现出推理能力:

  • GRPO(Group Relative Policy Optimization):DeepSeek 提出的高效 RL 算法
  • RLVR(RL with Verifiable Rewards):使用确定性奖励函数代替人类标注

4. 专项适配

根据应用场景扩展模型能力:

  • 工具使用:学会调用 API、函数调用(Function Calling)
  • 多模态理解:视觉-语言对齐(VLM)
  • 领域知识注入:医疗、法律、金融等垂直领域微调

Tülu 3:开源后训练的黄金标准

Tülu 3(Lambert 等,2024)是目前最完整的开源后训练方案,其流程为本课程提供了核心参考框架:

SFT 阶段

在精心混合的多源指令数据上进行监督微调。Tülu 3 使用了来自多个来源的数据,并通过系统性的数据混合实验确定最优配比。

DPO 阶段

使用偏好数据进行 DPO 对齐,提升模型的回复质量和安全性。关键发现:在策略(on-policy)生成的偏好数据效果优于离线数据。

RLVR 阶段

使用可验证奖励进行强化学习,专门提升数学推理和指令跟随能力。这一步是 Tülu 3 在 GSM8K 等推理基准上取得突破的关键。

Tülu 3 的核心贡献在于其系统性的消融实验:每一步的设计选择(数据配比、超参数、方法选型)都有实验支撑,为开源社区提供了可复现的最佳实践。


Qwen3 的四阶段后训练流程

Qwen3 的后训练流程是本课程技术体系的最佳案例。根据 Qwen3 技术报告(arXiv:2505.09388),其后训练分为四个精心设计的阶段:

阶段 1:长思维链冷启动 SFT(Long-CoT Cold Start)

使用精心构造的长思维链数据进行 SFT,为模型注入基本的推理模式。这些数据包含详细的逐步推理过程,教会模型如何展开深度思考。

  • 数据来源:通过强模型生成、人工筛选的高质量推理数据
  • 目标:让模型掌握 <think>...</think> 格式的思维链输出

阶段 2:推理 RL(Reasoning Reinforcement Learning)

在数学、代码等可验证任务上进行大规模 GRPO 训练,强化模型的推理能力。

  • 奖励信号:答案正确性(可验证奖励)
  • 关键效果:模型学会了更长、更深入的推理链,自发涌现出自我验证和回溯能力

阶段 3:思考模式融合(Thinking Mode Fusion)

将推理 RL 阶段获得的深度思考能力融合回统一模型,使模型同时具备:

  • 思考模式(Thinking Mode):生成详细的内部推理过程
  • 非思考模式(Non-Thinking Mode):直接给出简洁回复

这一阶段本质上是一种蒸馏:将 RL 训练的推理专家能力蒸馏到一个统一的模型中。

阶段 4:通用 RL(General Reinforcement Learning)

使用通用奖励信号(包括人类偏好和规则奖励)进行最终的强化学习,全面提升模型在各项能力上的表现,包括指令跟随、安全性、多语言等。

Qwen3 的四阶段后训练流程正好对应了本课程的技术体系:阶段 1 对应第 1-2 课(SFT),阶段 2 对应第 4 课(GRPO),阶段 3-4 对应第 3 课(偏好对齐)和第 5 课(部署优化)。


/think/no_think 模式演示

Qwen3 Instruct 模型内置了思考模式切换功能,这是后训练赋予模型的核心能力之一。

在思考模式下,模型会先在 <think> 标签内展开内部推理,然后给出最终回复:

用户:/think
      解方程 3x + 7 = 22

助手:<think>
我需要解方程 3x + 7 = 22。
首先,将 7 从等式两边减去:
3x + 7 - 7 = 22 - 7
3x = 15
然后,将两边除以 3:
x = 15 / 3
x = 5
让我验证一下:3 × 5 + 7 = 15 + 7 = 22 ✓
</think>

解方程 3x + 7 = 22:

将常数项移到右边:3x = 22 - 7 = 15

两边除以 3:**x = 5**

验证:3 × 5 + 7 = 22 ✓

思考模式适合需要深度推理的任务:数学题、编程、逻辑分析等。

在非思考模式下,模型跳过内部推理过程,直接给出简洁回复:

用户:/no_think
      解方程 3x + 7 = 22

助手:<think>
</think>

解方程 3x + 7 = 22:
- 3x = 15
- **x = 5**

非思考模式适合简单问答、创意写作等不需要深度推理的场景,响应更快。

只有经过完整后训练流程的 Instruct 版本才支持 /think/no_think 模式切换。基座模型(Base)不具备这一能力——这正是后训练的价值所在。


本节小结

概念说明
预训练万亿级 token 上的语言建模,产出基座模型
后训练SFT + 偏好对齐 + 推理 RL,将基座模型转化为实用助手
SFT教模型"怎么说话"
DPO/RLHF教模型"怎么选择"
GRPO/RLVR教模型"怎么思考"
Tülu 3开源后训练黄金标准:SFT → DPO → RLVR
Qwen3四阶段后训练:冷启动 SFT → 推理 RL → 模式融合 → 通用 RL