LLM 后训练实践

第4课：RLHF与GRPO

第4课：RLHF 原理与推理强化学习（GRPO）

理解完整的 RLHF 流程，掌握 GRPO 算法，使用可验证奖励复现迷你 DeepSeek-R1-Zero 实验，观察推理能力的涌现

学习目标

完成本课学习后，你将能够：

描述完整的 RLHF 三阶段流程（SFT → RM → PPO），理解每个阶段的作用和挑战
解释 PPO 的核心组件（截断代理损失、GAE、KL 惩罚）及四模型架构
推导 GRPO 算法的完整步骤，理解组相对优势为何能替代价值网络
实现可验证奖励函数，配置 GRPOTrainer 进行推理强化训练
分析 DeepSeek-R1-Zero 的推理涌现现象，对比 GRPO 训练、蒸馏和 Qwen3 思考模式
了解 DAPO、Dr. GRPO、REINFORCE++ 等改进方法及测试时计算扩展的概念

学时分配

环节	时长	内容
讲授	~80 分钟	经典 RLHF、GRPO 算法、改进方法、工程工具
上机实践	~100 分钟	迷你 DeepSeek-R1-Zero 实验

课程内容

4.1 经典 RLHF 流程

InstructGPT 三阶段、奖励模型训练、PPO 核心组件、四模型架构、常见不稳定性

4.2 GRPO 与推理涌现

DeepSeek-R1-Zero 里程碑、GRPO 四步算法、RLVR、完整 GRPO 损失公式

4.3 GRPO 改进与测试时计算

DAPO、Dr. GRPO、REINFORCE++、测试时计算扩展、o1/o3/R1 连接

4.4 RLHF 工程工具

TRL、OpenRLHF、veRL 工具生态对比

推荐论文

InstructGPT、DeepSeek-R1、DeepSeekMath、Snell et al.、DAPO 等 7 篇核心论文

上机实验

迷你 DeepSeek-R1-Zero：用 GRPO 训练 Qwen3-1.7B-Base 进行数学推理

关键词

RLHF · PPO · Reward Model · GRPO · DeepSeek-R1 · RLVR · Verifiable Rewards · Reasoning Emergence · Test-Time Compute · DAPO · GRPOTrainer

第3课实验：DPO 对齐与 SimPO 对比

使用 DPO 对齐 SFT 模型，与 SimPO 进行实证对比，涵盖偏好数据探索、训练、评估的完整流程

4.1 经典 RLHF 流程

InstructGPT 三阶段流程、奖励模型训练、PPO 核心组件、四模型架构及常见不稳定性

On this page

学习目标学时分配课程内容关键词