4.2 GRPO 与推理涌现

$\rho_{i,t} = \frac{\pi_\theta(o_{i,t} | q, o_{i,<t})}{\pi_{\theta_{\text{old}}}(o_{i,t} | q, o_{i,<t})}$ 是 token 级别的概率比
$D_{\text{KL}}^{(i,t)}$ 是 token 级别的 KL 散度惩罚
$\beta$ 是 KL 惩罚系数
$\epsilon$ 是 PPO 截断参数

完整 GRPO 损失公式

将所有组件合在一起，GRPO 的完整损失为：

\boxed{ \mathcal{L}_{\text{GRPO}}(\theta) = -\mathbb{E}_{q \sim \mathcal{D}} \left[\frac{1}{G}\sum_{i=1}^{G} \frac{1}{|o_i|}\sum_{t=1}^{|o_i|} \left(\min\left(\rho_{i,t} \hat{A}_i, \; \text{clip}(\rho_{i,t}, 1-\epsilon, 1+\epsilon) \hat{A}_i\right) - \beta \, D_{\text{KL}}^{(i,t)}\right)\right] }

其中 KL 散度的近似计算为：

D_{\text{KL}}^{(i,t)} = \frac{\pi_{\text{ref}}(o_{i,t} | q, o_{i,<t})}{\pi_\theta(o_{i,t} | q, o_{i,<t})} - \log \frac{\pi_{\text{ref}}(o_{i,t} | q, o_{i,<t})}{\pi_\theta(o_{i,t} | q, o_{i,<t})} - 1

这是 KL 散度的一种无偏估计（Schulman 近似）。

GRPO vs PPO 对比

方面	PPO	GRPO
优势估计	价值网络 $V_\psi$ + GAE	组统计量 $\hat{A}_i = (r_i - \mu)/\sigma$
模型数量	4个	2-3个（无价值模型）
内存需求	极高	减少 ~50%
token 级/序列级	token 级优势	序列级优势
基线准确度	较高（学习到的 $V$ ）	较粗糙（组均值）
实现复杂度	高	中
训练稳定性	低	中（无价值模型崩溃问题）

RLVR：可验证奖励的强化学习

什么是 RLVR

RLVR（Reinforcement Learning with Verifiable Rewards） 是 GRPO 最自然的应用场景。当任务有确定性标准答案时，奖励函数就是简单的正确性检查：

任务类型	奖励函数	可验证性
数学推理	提取答案 → 与标准答案比较	完全可验证
代码生成	执行代码 → 检查输出/通过测试用例	完全可验证
逻辑推理	检查逻辑一致性	部分可验证
翻译	BLEU/METEOR 等自动指标	部分可验证
通用对话	需要人类/AI 判断	不可验证

RLVR 的优势

RLVR 为什么强大？

零噪声奖励：正确就是正确，没有主观判断的噪声
无奖励黑客：不存在可被利用的奖励模型漏洞
完全自动化：不需要人类标注，可以无限扩展
与 GRPO 完美结合：组统计量 + 二值奖励 = 简洁高效的训练

这就是为什么 DeepSeek-R1、QwQ-32B 和 Qwen3 的推理阶段都采用了 RLVR 方法。

典型的数学推理奖励函数

import re

def math_reward(question: str, response: str, ground_truth: str) -> float:
    """
    数学推理奖励函数

    Args:
        question: 数学问题
        response: 模型的完整回复
        ground_truth: 标准答案
    Returns:
        reward: 1.0 (正确) 或 0.0 (错误)
    """
    # 1. 尝试从 \boxed{} 中提取答案
    boxed_match = re.search(r'\\boxed\{([^}]+)\}', response)
    if boxed_match:
        predicted = boxed_match.group(1).strip()
    else:
        # 2. 回退：提取最后一个数字
        numbers = re.findall(r'-?\d+\.?\d*', response)
        if numbers:
            predicted = numbers[-1]
        else:
            return 0.0  # 无法提取答案

    # 3. 比较答案
    try:
        if float(predicted) == float(ground_truth):
            return 1.0
        else:
            return 0.0
    except ValueError:
        return 1.0 if predicted.strip() == ground_truth.strip() else 0.0

DeepSeek-R1 完整流程

四阶段训练

DeepSeek-R1 的完整训练流程包含四个阶段：

阶段1：冷启动 SFT

使用少量高质量的长思维链数据对基座模型进行 SFT。这些数据来自人类标注和 few-shot prompting，包含详细的推理过程。

目的：给模型一个"学会推理格式"的初始化。纯 R1-Zero 虽然能涌现推理，但格式混乱、可读性差。冷启动 SFT 解决了这个问题。

数据量：约数千条高质量推理样本。

阶段2：大规模 GRPO

在冷启动后的模型上进行大规模 GRPO 训练：

数据：数学（GSM8K、MATH、竞赛题）+ 代码（LeetCode、CodeContests）
奖励：可验证的正确性奖励
规模：数万步训练，消耗大量计算

结果：模型发展出深度推理能力，AIME 等竞赛成绩大幅提升。

阶段3：拒绝采样 + SFT

使用阶段2的 GRPO 模型对大量问题进行拒绝采样（Rejection Sampling）：生成多个回复，只保留正确的回复，然后用这些高质量数据做 SFT。

目的：将 RL 训练的推理能力"固化"到模型中，提高推理链的质量和一致性。

阶段4：最终 RL

在更广泛的任务上进行最终的 RL 优化，包括通用对话、安全对齐等，全面提升模型能力。

目的：不仅是推理专家，还要成为全面的通用助手。

与 Qwen3 后训练的对比

阶段	DeepSeek-R1	Qwen3
1	冷启动 SFT	长思维链冷启动 SFT
2	大规模 GRPO	推理 RL（GRPO）
3	拒绝采样 + SFT	思考模式融合
4	最终 RL	通用 RL

两者的核心思路高度一致：先用 SFT 初始化 → 用 RL 强化推理 → 融合/固化 → 通用优化。

推理涌现的深层理解

为什么 RL 能涌现推理

基座语言模型在预训练阶段已经"见过"了大量的推理文本（教科书、论文、StackOverflow 等），因此具备了推理的潜在能力。RL 的作用是通过奖励信号激活这些潜在能力：

信号放大：基座模型对"逐步推理"有微弱的偏好（因为训练数据中推理文本获得了好的 next-token prediction），RL 将这个微弱信号放大
策略优化：RL 不仅激活推理能力，还优化推理策略——学会何时分步、何时验证、何时回溯
格式发现：模型自发地发现了有效的推理格式（如 <think> 标签、分步列举等）

训练过程中的涌现现象

在 GRPO 训练过程中，可以观察到以下阶段性变化：

训练阶段	回复特征	正确率
早期（~10步）	直接给答案，很少推理	~10%
中期（~100步）	开始出现简单的计算步骤	~30%
后期（~300步）	出现逐步推理、自我检验	~50%+
收敛（~500步）	结构化推理、回溯、验证	~60%+

"顿悟时刻"：DeepSeek 团队报告了一个有趣的现象——在训练的某个阶段，模型突然"顿悟"了自我验证的策略，在回复中出现了"Wait, let me reconsider..."之类的表述，随后正确率显著跳升。这被称为推理的"涌现"——不是渐进地出现，而是在某个临界点突然出现。

GRPO 的关键超参数

超参数	含义	推荐值	影响
$G$ (num_generations)	每个提示的采样数量	8-16	更大 → 更准确的基线估计，但计算成本更高
$\beta$ (kl_coef)	KL 惩罚系数	0.001-0.01	更大 → 更保守，更小 → 更激进
$\epsilon$ (clip_range)	PPO 截断参数	0.1-0.2	更大 → 允许更大的更新步幅
lr (learning_rate)	学习率	1e-6 ~ 5e-6	更大 → 更快收敛但可能不稳定
max_new_tokens	最大生成 token 数	1024-2048	更大 → 允许更长的推理链

On this page