第3课推荐论文

核心阅读列表

本课涵盖的5篇核心论文，建议按顺序阅读。DPO 原始论文为必读，其余根据兴趣选读。

Rafailov 等 (NeurIPS 2023)。DPO 奠基论文，必读。证明了可以跳过奖励模型和 RL 循环，直接在偏好对上优化策略。提出了从 RLHF 目标到 DPO 损失的完整推导。

Meng 等 (NeurIPS 2024)。无参考模型的偏好优化方法，使用平均对数概率作为隐式奖励，在 AlpacaEval 2 上比 DPO 高出最多 6.4 分。实现更简单、训练更快。

Ethayarajh 等 (2024)。受行为经济学前景理论启发，使用非配对的二值反馈（点赞/点踩）进行对齐，在缺少成对偏好数据时特别适用。建立了 LLM 对齐与经典经济学理论的优雅联系。

Ivison 等 (2024)。对 DPO 和 PPO 进行系统性控制实验，解析影响两种方法效果的关键因素。对理解 DPO 在实践中的表现及其与 PPO 的权衡非常有帮助。

(2024.10, 持续更新至2025)。覆盖 20+ 种 DPO 变体的综述论文，包括理论分析、实验对比和实践建议。适合在掌握 DPO 基础后进行全面了解。

优先级	论文	建议阅读方式	预计时间
必读	DPO (Rafailov et al.)	精读推导部分（Section 4-5）	2-3 小时
强烈推荐	SimPO (Meng et al.)	重点阅读方法和实验	1-2 小时
推荐	KTO (Ethayarajh et al.)	了解核心思想和前景理论联系	1 小时
推荐	Ivison et al.	重点看实验结论和实践建议	1 小时
参考	DPO Survey	作为查阅手册，按需阅读	按需

阅读 DPO 原始论文时，建议重点关注以下部分：

Section 4 (Direct Preference Optimization)：完整推导过程，对应本课 3.2 节的内容。理解每一步变换的动机和数学细节。

Section 5 (Theoretical Analysis)：DPO 的理论性质分析，包括其与 RLHF 的等价性条件。

Section 6 (Experiments)：实验设计和结果分析，了解 DPO 在实际任务上的表现。