LLM 后训练实践
第4课:RLHF与GRPO

第4课:RLHF 原理与推理强化学习(GRPO)

理解完整的 RLHF 流程,掌握 GRPO 算法,使用可验证奖励复现迷你 DeepSeek-R1-Zero 实验,观察推理能力的涌现

学习目标

完成本课学习后,你将能够:

  1. 描述完整的 RLHF 三阶段流程(SFT → RM → PPO),理解每个阶段的作用和挑战
  2. 解释 PPO 的核心组件(截断代理损失、GAE、KL 惩罚)及四模型架构
  3. 推导 GRPO 算法的完整步骤,理解组相对优势为何能替代价值网络
  4. 实现可验证奖励函数,配置 GRPOTrainer 进行推理强化训练
  5. 分析 DeepSeek-R1-Zero 的推理涌现现象,对比 GRPO 训练、蒸馏和 Qwen3 思考模式
  6. 了解 DAPO、Dr. GRPO、REINFORCE++ 等改进方法及测试时计算扩展的概念

学时分配

环节时长内容
讲授~80 分钟经典 RLHF、GRPO 算法、改进方法、工程工具
上机实践~100 分钟迷你 DeepSeek-R1-Zero 实验

课程内容

关键词

RLHF · PPO · Reward Model · GRPO · DeepSeek-R1 · RLVR · Verifiable Rewards · Reasoning Emergence · Test-Time Compute · DAPO · GRPOTrainer