LLM 后训练实践
第3课:偏好对齐DPO

第3课:偏好对齐——DPO 及其变体

理解为什么仅靠 SFT 不足以实现对齐,从 RLHF 目标推导 DPO 损失函数,实现 DPO 训练,并对 DPO 与 SimPO 进行实证比较

学习目标

完成本课学习后,你将能够:

  1. 解释为什么仅靠 SFT 不足以实现模型对齐,阐述人类偏好的比较性本质
  2. 推导从 RLHF 目标到 DPO 损失函数的完整数学路径(四步推导)
  3. 理解 Bradley-Terry 偏好模型和 KL 约束优化的核心思想
  4. 比较 DPO、SimPO、KTO、ORPO、IPO 等主要变体的设计理念与适用场景
  5. 实现 DPO 和 SimPO 训练,掌握 DPOTrainer 的配置与调优
  6. 评估偏好对齐模型在有用性、安全性、多样性维度的表现

学时分配

环节时长内容
讲授~70 分钟对齐问题、DPO 推导、DPO 变体、实践考量
上机实践~110 分钟DPO 对齐 SFT 模型,与 SimPO 对比实验

课程内容

关键词

Alignment · Direct Preference Optimization (DPO) · Bradley-Terry Model · KL Divergence · SimPO · KTO · ORPO · IPO · Preference Data · UltraFeedback