1.1 后训练的定义与基本流程
理解 LLM 开发的三阶段流程,掌握后训练的核心方法体系,了解 Tülu 3 和 Qwen3 的后训练实践
LLM 开发的三阶段流程
现代大语言模型(LLM)的开发可以清晰地划分为三个阶段:
阶段一:预训练(Pre-training)
预训练是 LLM 的基础。在这一阶段,模型在万亿级 token 的大规模语料上进行下一个 token 预测(next-token prediction),学习语言知识和世界知识。
- 计算量:极其巨大,通常需要数千张 GPU 训练数周到数月
- 训练目标:标准的语言建模目标,最小化负对数似然
- 产出:一个"博学但不听话"的基座模型(base model)——它拥有丰富的知识,但不会遵循人类指令、不懂对话格式、可能生成有害内容
以 Qwen3 为例:Qwen3 系列在约 36 万亿 token 上进行了预训练,涵盖 119 种语言和编程语言。预训练分为三个阶段(S1: 30T tokens, S2: 5T tokens, S3: 退火阶段),逐步提升数据质量。
阶段二:后训练(Post-training)
后训练是将基座模型转化为实用助手的关键阶段。通过 SFT、偏好对齐、强化学习等手段,赋予模型指令跟随、安全回复、推理思考等能力。
- 计算量:仅占预训练的约 5%(以 DeepSeek-R1 为例),但决定了模型的实际可用性
- 核心目标:让模型学会"怎么说话"、"怎么选择"、"怎么思考"
- 产出:一个能遵循指令、安全有用的对齐模型(aligned model / instruct model)
阶段三:推理阶段(Inference)
模型部署后的优化和扩展阶段:
- 部署优化:量化(INT8/INT4)、蒸馏、剪枝等方法减少模型体积和推理成本
- 推理时计算扩展:思维链(Chain-of-Thought)、best-of-N 采样、树搜索等方法在推理时分配更多计算资源
预训练(数月,数千GPU) 后训练(数天,数十GPU) 推理(毫秒级)
┌─────────────────┐ ┌─────────────────────┐ ┌──────────────────┐
│ 万亿级 token │ │ SFT → DPO → GRPO │ │ 量化 / 蒸馏 │
│ 下一个 token 预测 │ ──→ │ 指令跟随、偏好对齐、 │ ──→ │ 推理时计算扩展 │
│ 基座模型 │ │ 推理能力 │ │ 部署服务 │
└─────────────────┘ └─────────────────────┘ └──────────────────┘
≈95% 成本 ≈5% 成本 面向用户后训练的核心方法全景
后训练涵盖多种方法,按功能可分为四大类:
1. 监督微调(Supervised Fine-Tuning, SFT)
教模型"怎么说话"——学会遵循指令、按格式回复。
SFT 使用高质量的 (指令, 回复) 对来训练模型。模型学习的是:给定一个指令,如何生成符合期望的回复。这是后训练的第一步,也是其他所有方法的基础。
- 输入:
"用三句话介绍量子计算" - 期望输出:
"量子计算利用量子力学原理进行信息处理..."
2. 偏好对齐(Preference Alignment: DPO/RLHF)
教模型"怎么选择"——在多个可能的回复中选择更好的。
SFT 后的模型可能生成多种回复,但并非所有回复都同样好。偏好对齐通过人类偏好数据("回复 A 优于回复 B")来教模型区分好坏:
- RLHF(Reinforcement Learning from Human Feedback):训练奖励模型 + PPO 优化
- DPO(Direct Preference Optimization):直接在偏好对上训练,无需奖励模型
3. 推理强化学习(Reasoning RL: GRPO/RLVR)
教模型"怎么思考"——发展逐步推理和自我验证能力。
这是 2024-2025 年最激动人心的进展。通过可验证奖励(如数学答案的正确性),模型在纯强化学习中自发涌现出推理能力:
- GRPO(Group Relative Policy Optimization):DeepSeek 提出的高效 RL 算法
- RLVR(RL with Verifiable Rewards):使用确定性奖励函数代替人类标注
4. 专项适配
根据应用场景扩展模型能力:
- 工具使用:学会调用 API、函数调用(Function Calling)
- 多模态理解:视觉-语言对齐(VLM)
- 领域知识注入:医疗、法律、金融等垂直领域微调
Tülu 3:开源后训练的黄金标准
Tülu 3(Lambert 等,2024)是目前最完整的开源后训练方案,其流程为本课程提供了核心参考框架:
SFT 阶段
在精心混合的多源指令数据上进行监督微调。Tülu 3 使用了来自多个来源的数据,并通过系统性的数据混合实验确定最优配比。
DPO 阶段
使用偏好数据进行 DPO 对齐,提升模型的回复质量和安全性。关键发现:在策略(on-policy)生成的偏好数据效果优于离线数据。
RLVR 阶段
使用可验证奖励进行强化学习,专门提升数学推理和指令跟随能力。这一步是 Tülu 3 在 GSM8K 等推理基准上取得突破的关键。
Tülu 3 的核心贡献在于其系统性的消融实验:每一步的设计选择(数据配比、超参数、方法选型)都有实验支撑,为开源社区提供了可复现的最佳实践。
Qwen3 的四阶段后训练流程
Qwen3 的后训练流程是本课程技术体系的最佳案例。根据 Qwen3 技术报告(arXiv:2505.09388),其后训练分为四个精心设计的阶段:
阶段 1:长思维链冷启动 SFT(Long-CoT Cold Start)
使用精心构造的长思维链数据进行 SFT,为模型注入基本的推理模式。这些数据包含详细的逐步推理过程,教会模型如何展开深度思考。
- 数据来源:通过强模型生成、人工筛选的高质量推理数据
- 目标:让模型掌握
<think>...</think>格式的思维链输出
阶段 2:推理 RL(Reasoning Reinforcement Learning)
在数学、代码等可验证任务上进行大规模 GRPO 训练,强化模型的推理能力。
- 奖励信号:答案正确性(可验证奖励)
- 关键效果:模型学会了更长、更深入的推理链,自发涌现出自我验证和回溯能力
阶段 3:思考模式融合(Thinking Mode Fusion)
将推理 RL 阶段获得的深度思考能力融合回统一模型,使模型同时具备:
- 思考模式(Thinking Mode):生成详细的内部推理过程
- 非思考模式(Non-Thinking Mode):直接给出简洁回复
这一阶段本质上是一种蒸馏:将 RL 训练的推理专家能力蒸馏到一个统一的模型中。
阶段 4:通用 RL(General Reinforcement Learning)
使用通用奖励信号(包括人类偏好和规则奖励)进行最终的强化学习,全面提升模型在各项能力上的表现,包括指令跟随、安全性、多语言等。
Qwen3 的四阶段后训练流程正好对应了本课程的技术体系:阶段 1 对应第 1-2 课(SFT),阶段 2 对应第 4 课(GRPO),阶段 3-4 对应第 3 课(偏好对齐)和第 5 课(部署优化)。
/think 和 /no_think 模式演示
Qwen3 Instruct 模型内置了思考模式切换功能,这是后训练赋予模型的核心能力之一。
在思考模式下,模型会先在 <think> 标签内展开内部推理,然后给出最终回复:
用户:/think
解方程 3x + 7 = 22
助手:<think>
我需要解方程 3x + 7 = 22。
首先,将 7 从等式两边减去:
3x + 7 - 7 = 22 - 7
3x = 15
然后,将两边除以 3:
x = 15 / 3
x = 5
让我验证一下:3 × 5 + 7 = 15 + 7 = 22 ✓
</think>
解方程 3x + 7 = 22:
将常数项移到右边:3x = 22 - 7 = 15
两边除以 3:**x = 5**
验证:3 × 5 + 7 = 22 ✓思考模式适合需要深度推理的任务:数学题、编程、逻辑分析等。
在非思考模式下,模型跳过内部推理过程,直接给出简洁回复:
用户:/no_think
解方程 3x + 7 = 22
助手:<think>
</think>
解方程 3x + 7 = 22:
- 3x = 15
- **x = 5**非思考模式适合简单问答、创意写作等不需要深度推理的场景,响应更快。
只有经过完整后训练流程的 Instruct 版本才支持 /think 和 /no_think 模式切换。基座模型(Base)不具备这一能力——这正是后训练的价值所在。
本节小结
| 概念 | 说明 |
|---|---|
| 预训练 | 万亿级 token 上的语言建模,产出基座模型 |
| 后训练 | SFT + 偏好对齐 + 推理 RL,将基座模型转化为实用助手 |
| SFT | 教模型"怎么说话" |
| DPO/RLHF | 教模型"怎么选择" |
| GRPO/RLVR | 教模型"怎么思考" |
| Tülu 3 | 开源后训练黄金标准:SFT → DPO → RLVR |
| Qwen3 | 四阶段后训练:冷启动 SFT → 推理 RL → 模式融合 → 通用 RL |