LLM 后训练实践
第4课:RLHF与GRPO

第4课推荐论文

InstructGPT、DeepSeek-R1、DeepSeekMath、Snell et al.、DAPO、Safe RLHF、Qwen3 等 7 篇核心论文

核心阅读列表

本课涵盖的7篇核心论文,按主题分组。InstructGPT 和 DeepSeek-R1 为必读。

RLHF 基础

GRPO 与推理涌现

测试时计算与综合参考

阅读指南

优先级排序

优先级论文建议阅读方式预计时间
必读DeepSeek-R1精读 Section 2-4(R1-Zero 到 R1 流程)2-3 小时
必读InstructGPT精读 Section 3-5(方法和实验)2-3 小时
强烈推荐DeepSeekMath重点阅读 GRPO 算法部分1-2 小时
推荐Snell et al.理解核心发现和实验结论1 小时
推荐DAPO关注工程改进细节1 小时
推荐Qwen3 TR第4.2节后训练流程30 分钟
参考Safe RLHF了解安全对齐思路1 小时

DeepSeek-R1 论文重点关注

Section 2 (DeepSeek-R1-Zero):纯 RL 训练的方法和结果,最令人兴奋的部分。关注推理涌现的描述和"顿悟时刻"。

Section 3 (DeepSeek-R1):完整四阶段流程的细节。理解为什么纯 R1-Zero 不够好,以及如何用冷启动 SFT 解决格式和可读性问题。

Section 4 (Distillation):蒸馏部分展示了如何将推理能力从大模型迁移到小模型(1.5B-32B)。

InstructGPT 论文重点关注

Section 3 (Methods):三阶段流程的详细描述,包括数据收集、奖励模型架构、PPO 优化策略。

Section 5 (Results):RLHF 如何在多个维度上提升模型质量(有用性、真实性、减少有害性)。

Section 6 (Discussion):关于"对齐税"(alignment tax)的讨论——RLHF 是否以牺牲某些能力为代价?

延伸阅读

如果对 RLHF 和推理 RL 领域感兴趣,以下资源也值得关注(非必读):