LLM 后训练实践

第3课：偏好对齐DPO

第3课：偏好对齐——DPO 及其变体

理解为什么仅靠 SFT 不足以实现对齐，从 RLHF 目标推导 DPO 损失函数，实现 DPO 训练，并对 DPO 与 SimPO 进行实证比较

学习目标

完成本课学习后，你将能够：

解释为什么仅靠 SFT 不足以实现模型对齐，阐述人类偏好的比较性本质
推导从 RLHF 目标到 DPO 损失函数的完整数学路径（四步推导）
理解 Bradley-Terry 偏好模型和 KL 约束优化的核心思想
比较 DPO、SimPO、KTO、ORPO、IPO 等主要变体的设计理念与适用场景
实现 DPO 和 SimPO 训练，掌握 DPOTrainer 的配置与调优
评估偏好对齐模型在有用性、安全性、多样性维度的表现

学时分配

环节	时长	内容
讲授	~70 分钟	对齐问题、DPO 推导、DPO 变体、实践考量
上机实践	~110 分钟	DPO 对齐 SFT 模型，与 SimPO 对比实验

课程内容

3.1 对齐问题

SFT 的局限性、人类偏好的比较性本质、为什么需要偏好优化

3.2 DPO 数学推导

从 RLHF 目标到 DPO 的完整四步推导、Bradley-Terry 模型、梯度分析

3.3 DPO 变体

SimPO、KTO、ORPO、IPO 的设计理念、公式与比较

3.4 实践考量

在线 vs 离线 DPO、beta 敏感性、数据质量、当前领域趋势

推荐论文

DPO、SimPO、KTO、Ivison et al.、DPO 综述等 5 篇核心论文

上机实验

使用 DPO 对齐 SFT 模型，并与 SimPO 对比，完整代码与步骤

关键词

Alignment · Direct Preference Optimization (DPO) · Bradley-Terry Model · KL Divergence · SimPO · KTO · ORPO · IPO · Preference Data · UltraFeedback

实验2：构建领域定制 SFT 模型并系统评估

从数据分析到模型训练到 LLM-as-Judge 评估的完整指令微调实验，含消融实验

3.1 对齐问题：为什么仅靠 SFT 不够

SFT 教会模型'说什么'，但未教会它'如何选择'。人类偏好本质上是比较性的，偏好优化直接捕获这一信号。

On this page

学习目标学时分配课程内容关键词