第3课推荐论文
DPO、SimPO、KTO、DPO vs PPO 对比实验、DPO 综述等 5 篇核心论文
核心阅读列表
本课涵盖的5篇核心论文,建议按顺序阅读。DPO 原始论文为必读,其余根据兴趣选读。
DPO: Direct Preference Optimization
Rafailov 等 (NeurIPS 2023)。DPO 奠基论文,必读。证明了可以跳过奖励模型和 RL 循环,直接在偏好对上优化策略。提出了从 RLHF 目标到 DPO 损失的完整推导。
SimPO: Simple Preference Optimization with a Reference-Free Reward
Meng 等 (NeurIPS 2024)。无参考模型的偏好优化方法,使用平均对数概率作为隐式奖励,在 AlpacaEval 2 上比 DPO 高出最多 6.4 分。实现更简单、训练更快。
KTO: Model Alignment as Prospect Theoretic Optimization
Ethayarajh 等 (2024)。受行为经济学前景理论启发,使用非配对的二值反馈(点赞/点踩)进行对齐,在缺少成对偏好数据时特别适用。建立了 LLM 对齐与经典经济学理论的优雅联系。
Unpacking DPO and PPO: Disentangling Best Practices
Ivison 等 (2024)。对 DPO 和 PPO 进行系统性控制实验,解析影响两种方法效果的关键因素。对理解 DPO 在实践中的表现及其与 PPO 的权衡非常有帮助。
A Comprehensive Survey of Direct Preference Optimization
(2024.10, 持续更新至2025)。覆盖 20+ 种 DPO 变体的综述论文,包括理论分析、实验对比和实践建议。适合在掌握 DPO 基础后进行全面了解。
阅读指南
优先级排序
| 优先级 | 论文 | 建议阅读方式 | 预计时间 |
|---|---|---|---|
| 必读 | DPO (Rafailov et al.) | 精读推导部分(Section 4-5) | 2-3 小时 |
| 强烈推荐 | SimPO (Meng et al.) | 重点阅读方法和实验 | 1-2 小时 |
| 推荐 | KTO (Ethayarajh et al.) | 了解核心思想和前景理论联系 | 1 小时 |
| 推荐 | Ivison et al. | 重点看实验结论和实践建议 | 1 小时 |
| 参考 | DPO Survey | 作为查阅手册,按需阅读 | 按需 |
DPO 论文重点关注
阅读 DPO 原始论文时,建议重点关注以下部分:
Section 4 (Direct Preference Optimization):完整推导过程,对应本课 3.2 节的内容。理解每一步变换的动机和数学细节。
Section 5 (Theoretical Analysis):DPO 的理论性质分析,包括其与 RLHF 的等价性条件。
Section 6 (Experiments):实验设计和结果分析,了解 DPO 在实际任务上的表现。
延伸阅读
如果对偏好优化领域感兴趣,以下论文也值得关注(非必读):
- ORPO: Monolithic Preference Optimization without Reference Model (Hong et al., 2024):将 SFT 和对齐合并为单一损失
- IPO: A General Theoretical Paradigm to Understand Learning from Human Preferences (Azar et al., Google DeepMind, 2023):正则化偏好优化
- Nathan Lambert, 《Reinforcement Learning from Human Feedback》 (2025):系统性教材,免费获取
- Constitutional AI: Harmlessness from AI Feedback (Bai et al., Anthropic, 2022):了解无需人类标注的对齐方法