LLM 后训练实践
第3课:偏好对齐DPO

第3课推荐论文

DPO、SimPO、KTO、DPO vs PPO 对比实验、DPO 综述等 5 篇核心论文

核心阅读列表

本课涵盖的5篇核心论文,建议按顺序阅读。DPO 原始论文为必读,其余根据兴趣选读。

阅读指南

优先级排序

优先级论文建议阅读方式预计时间
必读DPO (Rafailov et al.)精读推导部分(Section 4-5)2-3 小时
强烈推荐SimPO (Meng et al.)重点阅读方法和实验1-2 小时
推荐KTO (Ethayarajh et al.)了解核心思想和前景理论联系1 小时
推荐Ivison et al.重点看实验结论和实践建议1 小时
参考DPO Survey作为查阅手册,按需阅读按需

DPO 论文重点关注

阅读 DPO 原始论文时,建议重点关注以下部分:

Section 4 (Direct Preference Optimization):完整推导过程,对应本课 3.2 节的内容。理解每一步变换的动机和数学细节。

Section 5 (Theoretical Analysis):DPO 的理论性质分析,包括其与 RLHF 的等价性条件。

Section 6 (Experiments):实验设计和结果分析,了解 DPO 在实际任务上的表现。

延伸阅读

如果对偏好优化领域感兴趣,以下论文也值得关注(非必读):