第4课推荐论文

InstructGPT、DeepSeek-R1、DeepSeekMath、Snell et al.、DAPO、Safe RLHF、Qwen3 等 7 篇核心论文

核心阅读列表

本课涵盖的7篇核心论文，按主题分组。InstructGPT 和 DeepSeek-R1 为必读。

Ouyang 等 (OpenAI, 2022)。确立了 RLHF 三阶段流程（SFT → RM → PPO）的奠基论文。InstructGPT 是 ChatGPT 的前身，展示了 RLHF 如何将 GPT-3 从一个基座模型转化为实用助手。必读。

北京大学对齐团队 (ICLR 2024)。提出解耦有用性和无害性的安全 RLHF 方法，使用双奖励模型分别评估有用性和安全性，通过约束优化在两者之间取得平衡。

DeepSeek-AI (2025.01)。推理涌现的里程碑论文。展示了基座模型通过纯 RL (GRPO) 训练自发发展出思维链推理、自我验证和回溯能力。提出了完整的四阶段训练流程。必读。

Shao 等 (2024.02)。GRPO 算法的原始论文。在数学推理任务上提出 Group Relative Policy Optimization，用组统计量替代价值网络，大幅简化了 RL 训练流程。

Yu 等 (字节跳动, 2025.03)。对 GRPO 最全面的实用改进，包含 clip-higher、动态采样、token 级损失等技术。完全开源，包含代码和训练配置。

Snell 等 (2024.08)。测试时计算扩展的理论基础。证明对于中等难度问题，在推理时分配更多计算可以超越 14 倍大的模型。是理解 o1/o3 和 R1 推理时策略的关键论文。

Qwen Team (2025.05)。Qwen3 的完整技术报告。第 4.2 节详细描述了四阶段后训练流程（冷启动 SFT → 推理 RL → 思考模式融合 → 通用 RL），是 GRPO 工业级实践的重要参考。

优先级	论文	建议阅读方式	预计时间
必读	DeepSeek-R1	精读 Section 2-4（R1-Zero 到 R1 流程）	2-3 小时
必读	InstructGPT	精读 Section 3-5（方法和实验）	2-3 小时
强烈推荐	DeepSeekMath	重点阅读 GRPO 算法部分	1-2 小时
推荐	Snell et al.	理解核心发现和实验结论	1 小时
推荐	DAPO	关注工程改进细节	1 小时
推荐	Qwen3 TR	第4.2节后训练流程	30 分钟
参考	Safe RLHF	了解安全对齐思路	1 小时

Section 2 (DeepSeek-R1-Zero)：纯 RL 训练的方法和结果，最令人兴奋的部分。关注推理涌现的描述和"顿悟时刻"。

Section 3 (DeepSeek-R1)：完整四阶段流程的细节。理解为什么纯 R1-Zero 不够好，以及如何用冷启动 SFT 解决格式和可读性问题。

Section 4 (Distillation)：蒸馏部分展示了如何将推理能力从大模型迁移到小模型（1.5B-32B）。

Section 3 (Methods)：三阶段流程的详细描述，包括数据收集、奖励模型架构、PPO 优化策略。

Section 5 (Results)：RLHF 如何在多个维度上提升模型质量（有用性、真实性、减少有害性）。

Section 6 (Discussion)：关于"对齐税"（alignment tax）的讨论——RLHF 是否以牺牲某些能力为代价？