第4课推荐论文
InstructGPT、DeepSeek-R1、DeepSeekMath、Snell et al.、DAPO、Safe RLHF、Qwen3 等 7 篇核心论文
核心阅读列表
本课涵盖的7篇核心论文,按主题分组。InstructGPT 和 DeepSeek-R1 为必读。
RLHF 基础
InstructGPT: Training Language Models to Follow Instructions with Human Feedback
Ouyang 等 (OpenAI, 2022)。确立了 RLHF 三阶段流程(SFT → RM → PPO)的奠基论文。InstructGPT 是 ChatGPT 的前身,展示了 RLHF 如何将 GPT-3 从一个基座模型转化为实用助手。必读。
Safe RLHF: Safe Reinforcement Learning from Human Feedback
北京大学对齐团队 (ICLR 2024)。提出解耦有用性和无害性的安全 RLHF 方法,使用双奖励模型分别评估有用性和安全性,通过约束优化在两者之间取得平衡。
GRPO 与推理涌现
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
DeepSeek-AI (2025.01)。推理涌现的里程碑论文。展示了基座模型通过纯 RL (GRPO) 训练自发发展出思维链推理、自我验证和回溯能力。提出了完整的四阶段训练流程。必读。
DeepSeekMath: Pushing the Limits of Mathematical Reasoning
Shao 等 (2024.02)。GRPO 算法的原始论文。在数学推理任务上提出 Group Relative Policy Optimization,用组统计量替代价值网络,大幅简化了 RL 训练流程。
DAPO: An Open-Source LLM Reinforcement Learning System at Scale
Yu 等 (字节跳动, 2025.03)。对 GRPO 最全面的实用改进,包含 clip-higher、动态采样、token 级损失等技术。完全开源,包含代码和训练配置。
测试时计算与综合参考
Scaling LLM Test-Time Compute Optimally
Snell 等 (2024.08)。测试时计算扩展的理论基础。证明对于中等难度问题,在推理时分配更多计算可以超越 14 倍大的模型。是理解 o1/o3 和 R1 推理时策略的关键论文。
Qwen3 Technical Report
Qwen Team (2025.05)。Qwen3 的完整技术报告。第 4.2 节详细描述了四阶段后训练流程(冷启动 SFT → 推理 RL → 思考模式融合 → 通用 RL),是 GRPO 工业级实践的重要参考。
阅读指南
优先级排序
| 优先级 | 论文 | 建议阅读方式 | 预计时间 |
|---|---|---|---|
| 必读 | DeepSeek-R1 | 精读 Section 2-4(R1-Zero 到 R1 流程) | 2-3 小时 |
| 必读 | InstructGPT | 精读 Section 3-5(方法和实验) | 2-3 小时 |
| 强烈推荐 | DeepSeekMath | 重点阅读 GRPO 算法部分 | 1-2 小时 |
| 推荐 | Snell et al. | 理解核心发现和实验结论 | 1 小时 |
| 推荐 | DAPO | 关注工程改进细节 | 1 小时 |
| 推荐 | Qwen3 TR | 第4.2节后训练流程 | 30 分钟 |
| 参考 | Safe RLHF | 了解安全对齐思路 | 1 小时 |
DeepSeek-R1 论文重点关注
Section 2 (DeepSeek-R1-Zero):纯 RL 训练的方法和结果,最令人兴奋的部分。关注推理涌现的描述和"顿悟时刻"。
Section 3 (DeepSeek-R1):完整四阶段流程的细节。理解为什么纯 R1-Zero 不够好,以及如何用冷启动 SFT 解决格式和可读性问题。
Section 4 (Distillation):蒸馏部分展示了如何将推理能力从大模型迁移到小模型(1.5B-32B)。
InstructGPT 论文重点关注
Section 3 (Methods):三阶段流程的详细描述,包括数据收集、奖励模型架构、PPO 优化策略。
Section 5 (Results):RLHF 如何在多个维度上提升模型质量(有用性、真实性、减少有害性)。
Section 6 (Discussion):关于"对齐税"(alignment tax)的讨论——RLHF 是否以牺牲某些能力为代价?
延伸阅读
如果对 RLHF 和推理 RL 领域感兴趣,以下资源也值得关注(非必读):
- Nathan Lambert, 《Reinforcement Learning from Human Feedback》 (2025):目前最全面的 RLHF 教材,免费获取
- QwQ-32B-Preview Technical Report:Qwen 团队的推理模型报告
- OpenAI o1 System Card:o1 模型的安全和能力评估
- Constitutional AI: Harmlessness from AI Feedback (Bai et al., Anthropic, 2022):无需人类标注的 RLHF 替代方案
- Proximal Policy Optimization Algorithms(Schulman 等,2017):理解 PPO 算法的数学基础