LLM 后训练实践

第1课：后训练概述与SFT基础

1.1 后训练的定义与基本流程

理解 LLM 开发的三阶段流程，掌握后训练的核心方法体系，了解 Tülu 3 和 Qwen3 的后训练实践

LLM 开发的三阶段流程

现代大语言模型（LLM）的开发可以清晰地划分为三个阶段：

阶段一：预训练（Pre-training）

预训练是 LLM 的基础。在这一阶段，模型在万亿级 token 的大规模语料上进行下一个 token 预测（next-token prediction），学习语言知识和世界知识。

计算量：极其巨大，通常需要数千张 GPU 训练数周到数月
训练目标：标准的语言建模目标，最小化负对数似然

\mathcal{L}_{\text{pretrain}} = -\sum_{t=1}^{T} \log P_\theta(x_t | x_{<t})

产出：一个"博学但不听话"的基座模型（base model）——它拥有丰富的知识，但不会遵循人类指令、不懂对话格式、可能生成有害内容

以 Qwen3 为例：Qwen3 系列在约 36 万亿 token 上进行了预训练，涵盖 119 种语言和编程语言。预训练分为三个阶段（S1: 30T tokens, S2: 5T tokens, S3: 退火阶段），逐步提升数据质量。

阶段二：后训练（Post-training）

后训练是将基座模型转化为实用助手的关键阶段。通过 SFT、偏好对齐、强化学习等手段，赋予模型指令跟随、安全回复、推理思考等能力。

计算量：仅占预训练的约 5%（以 DeepSeek-R1 为例），但决定了模型的实际可用性
核心目标：让模型学会"怎么说话"、"怎么选择"、"怎么思考"
产出：一个能遵循指令、安全有用的对齐模型（aligned model / instruct model）

阶段三：推理阶段（Inference）

模型部署后的优化和扩展阶段：

部署优化：量化（INT8/INT4）、蒸馏、剪枝等方法减少模型体积和推理成本
推理时计算扩展：思维链（Chain-of-Thought）、best-of-N 采样、树搜索等方法在推理时分配更多计算资源

后训练的核心方法全景

后训练涵盖多种方法，按功能可分为四大类：

1. 监督微调（Supervised Fine-Tuning, SFT）

教模型"怎么说话"——学会遵循指令、按格式回复。

SFT 使用高质量的 (指令, 回复) 对来训练模型。模型学习的是：给定一个指令，如何生成符合期望的回复。这是后训练的第一步，也是其他所有方法的基础。

输入："用三句话介绍量子计算"
期望输出："量子计算利用量子力学原理进行信息处理..."

2. 偏好对齐（Preference Alignment: DPO/RLHF）

教模型"怎么选择"——在多个可能的回复中选择更好的。

SFT 后的模型可能生成多种回复，但并非所有回复都同样好。偏好对齐通过人类偏好数据（"回复 A 优于回复 B"）来教模型区分好坏：

RLHF（Reinforcement Learning from Human Feedback）：训练奖励模型 + PPO 优化
DPO（Direct Preference Optimization）：直接在偏好对上训练，无需奖励模型

3. 推理强化学习（Reasoning RL: GRPO/RLVR）

教模型"怎么思考"——发展逐步推理和自我验证能力。

这是 2024-2025 年最激动人心的进展。通过可验证奖励（如数学答案的正确性），模型在纯强化学习中自发涌现出推理能力：

GRPO（Group Relative Policy Optimization）：DeepSeek 提出的高效 RL 算法
RLVR（RL with Verifiable Rewards）：使用确定性奖励函数代替人类标注

4. 专项适配

根据应用场景扩展模型能力：

工具使用：学会调用 API、函数调用（Function Calling）
多模态理解：视觉-语言对齐（VLM）
领域知识注入：医疗、法律、金融等垂直领域微调

Tülu 3：开源后训练的黄金标准

Tülu 3（Lambert 等，2024）是目前最完整的开源后训练方案，其流程为本课程提供了核心参考框架：

SFT 阶段

在精心混合的多源指令数据上进行监督微调。Tülu 3 使用了来自多个来源的数据，并通过系统性的数据混合实验确定最优配比。

DPO 阶段

使用偏好数据进行 DPO 对齐，提升模型的回复质量和安全性。关键发现：在策略（on-policy）生成的偏好数据效果优于离线数据。

RLVR 阶段

使用可验证奖励进行强化学习，专门提升数学推理和指令跟随能力。这一步是 Tülu 3 在 GSM8K 等推理基准上取得突破的关键。

Tülu 3 的核心贡献在于其系统性的消融实验：每一步的设计选择（数据配比、超参数、方法选型）都有实验支撑，为开源社区提供了可复现的最佳实践。

Qwen3 的四阶段后训练流程

Qwen3 的后训练流程是本课程技术体系的最佳案例。根据 Qwen3 技术报告（arXiv:2505.09388），其后训练分为四个精心设计的阶段：

阶段 1：长思维链冷启动 SFT（Long-CoT Cold Start）

使用精心构造的长思维链数据进行 SFT，为模型注入基本的推理模式。这些数据包含详细的逐步推理过程，教会模型如何展开深度思考。

数据来源：通过强模型生成、人工筛选的高质量推理数据
目标：让模型掌握 <think>...</think> 格式的思维链输出

阶段 2：推理 RL（Reasoning Reinforcement Learning）

在数学、代码等可验证任务上进行大规模 GRPO 训练，强化模型的推理能力。

奖励信号：答案正确性（可验证奖励）
关键效果：模型学会了更长、更深入的推理链，自发涌现出自我验证和回溯能力

阶段 3：思考模式融合（Thinking Mode Fusion）

将推理 RL 阶段获得的深度思考能力融合回统一模型，使模型同时具备：

思考模式（Thinking Mode）：生成详细的内部推理过程
非思考模式（Non-Thinking Mode）：直接给出简洁回复

这一阶段本质上是一种蒸馏：将 RL 训练的推理专家能力蒸馏到一个统一的模型中。

阶段 4：通用 RL（General Reinforcement Learning）

使用通用奖励信号（包括人类偏好和规则奖励）进行最终的强化学习，全面提升模型在各项能力上的表现，包括指令跟随、安全性、多语言等。

Qwen3 的四阶段后训练流程正好对应了本课程的技术体系：阶段 1 对应第 1-2 课（SFT），阶段 2 对应第 4 课（GRPO），阶段 3-4 对应第 3 课（偏好对齐）和第 5 课（部署优化）。

`/think` 和 `/no_think` 模式演示

Qwen3 Instruct 模型内置了思考模式切换功能，这是后训练赋予模型的核心能力之一。

在思考模式下，模型会先在 <think> 标签内展开内部推理，然后给出最终回复：

用户：/think
      解方程 3x + 7 = 22

助手：<think>
我需要解方程 3x + 7 = 22。
首先，将 7 从等式两边减去：
3x + 7 - 7 = 22 - 7
3x = 15
然后，将两边除以 3：
x = 15 / 3
x = 5
让我验证一下：3 × 5 + 7 = 15 + 7 = 22 ✓
</think>

解方程 3x + 7 = 22：

将常数项移到右边：3x = 22 - 7 = 15

两边除以 3：**x = 5**

验证：3 × 5 + 7 = 22 ✓

思考模式适合需要深度推理的任务：数学题、编程、逻辑分析等。

在非思考模式下，模型跳过内部推理过程，直接给出简洁回复：

用户：/no_think
      解方程 3x + 7 = 22

助手：<think>
</think>

解方程 3x + 7 = 22：
- 3x = 15
- **x = 5**

非思考模式适合简单问答、创意写作等不需要深度推理的场景，响应更快。

只有经过完整后训练流程的 Instruct 版本才支持 /think 和 /no_think 模式切换。基座模型（Base）不具备这一能力——这正是后训练的价值所在。

本节小结

概念	说明
预训练	万亿级 token 上的语言建模，产出基座模型
后训练	SFT + 偏好对齐 + 推理 RL，将基座模型转化为实用助手
SFT	教模型"怎么说话"
DPO/RLHF	教模型"怎么选择"
GRPO/RLVR	教模型"怎么思考"
Tülu 3	开源后训练黄金标准：SFT → DPO → RLVR
Qwen3	四阶段后训练：冷启动 SFT → 推理 RL → 模式融合 → 通用 RL

第1课：后训练概述与监督微调基础

理解后训练在 LLM 开发流程中的位置和核心方法体系，掌握 SFT 训练循环，配置 LoRA/QLoRA 进行参数高效训练

1.2 监督微调核心概念

掌握 ChatML 和 Llama 聊天模板格式，理解掩码损失（Masked Loss）的原理，了解数据质量的重要性