第3课:偏好对齐DPO
第3课:偏好对齐——DPO 及其变体
理解为什么仅靠 SFT 不足以实现对齐,从 RLHF 目标推导 DPO 损失函数,实现 DPO 训练,并对 DPO 与 SimPO 进行实证比较
学习目标
完成本课学习后,你将能够:
- 解释为什么仅靠 SFT 不足以实现模型对齐,阐述人类偏好的比较性本质
- 推导从 RLHF 目标到 DPO 损失函数的完整数学路径(四步推导)
- 理解 Bradley-Terry 偏好模型和 KL 约束优化的核心思想
- 比较 DPO、SimPO、KTO、ORPO、IPO 等主要变体的设计理念与适用场景
- 实现 DPO 和 SimPO 训练,掌握
DPOTrainer的配置与调优 - 评估偏好对齐模型在有用性、安全性、多样性维度的表现
学时分配
| 环节 | 时长 | 内容 |
|---|---|---|
| 讲授 | ~70 分钟 | 对齐问题、DPO 推导、DPO 变体、实践考量 |
| 上机实践 | ~110 分钟 | DPO 对齐 SFT 模型,与 SimPO 对比实验 |
课程内容
3.1 对齐问题
SFT 的局限性、人类偏好的比较性本质、为什么需要偏好优化
3.2 DPO 数学推导
从 RLHF 目标到 DPO 的完整四步推导、Bradley-Terry 模型、梯度分析
3.3 DPO 变体
SimPO、KTO、ORPO、IPO 的设计理念、公式与比较
3.4 实践考量
在线 vs 离线 DPO、beta 敏感性、数据质量、当前领域趋势
推荐论文
DPO、SimPO、KTO、Ivison et al.、DPO 综述等 5 篇核心论文
上机实验
使用 DPO 对齐 SFT 模型,并与 SimPO 对比,完整代码与步骤
关键词
Alignment · Direct Preference Optimization (DPO) · Bradley-Terry Model · KL Divergence · SimPO · KTO · ORPO · IPO · Preference Data · UltraFeedback