第4课:RLHF与GRPO
第4课:RLHF 原理与推理强化学习(GRPO)
理解完整的 RLHF 流程,掌握 GRPO 算法,使用可验证奖励复现迷你 DeepSeek-R1-Zero 实验,观察推理能力的涌现
学习目标
完成本课学习后,你将能够:
- 描述完整的 RLHF 三阶段流程(SFT → RM → PPO),理解每个阶段的作用和挑战
- 解释 PPO 的核心组件(截断代理损失、GAE、KL 惩罚)及四模型架构
- 推导 GRPO 算法的完整步骤,理解组相对优势为何能替代价值网络
- 实现可验证奖励函数,配置
GRPOTrainer进行推理强化训练 - 分析 DeepSeek-R1-Zero 的推理涌现现象,对比 GRPO 训练、蒸馏和 Qwen3 思考模式
- 了解 DAPO、Dr. GRPO、REINFORCE++ 等改进方法及测试时计算扩展的概念
学时分配
| 环节 | 时长 | 内容 |
|---|---|---|
| 讲授 | ~80 分钟 | 经典 RLHF、GRPO 算法、改进方法、工程工具 |
| 上机实践 | ~100 分钟 | 迷你 DeepSeek-R1-Zero 实验 |
课程内容
4.1 经典 RLHF 流程
InstructGPT 三阶段、奖励模型训练、PPO 核心组件、四模型架构、常见不稳定性
4.2 GRPO 与推理涌现
DeepSeek-R1-Zero 里程碑、GRPO 四步算法、RLVR、完整 GRPO 损失公式
4.3 GRPO 改进与测试时计算
DAPO、Dr. GRPO、REINFORCE++、测试时计算扩展、o1/o3/R1 连接
4.4 RLHF 工程工具
TRL、OpenRLHF、veRL 工具生态对比
推荐论文
InstructGPT、DeepSeek-R1、DeepSeekMath、Snell et al.、DAPO 等 7 篇核心论文
上机实验
迷你 DeepSeek-R1-Zero:用 GRPO 训练 Qwen3-1.7B-Base 进行数学推理
关键词
RLHF · PPO · Reward Model · GRPO · DeepSeek-R1 · RLVR · Verifiable Rewards · Reasoning Emergence · Test-Time Compute · DAPO · GRPOTrainer