3.2 DPO 数学推导

直觉理解：最优策略是参考策略的一个**能量模型（Energy-Based Model）**修正版本。奖励高的回复 $y$ 会被"上调"概率（ $\exp(r/\beta)$ 大），奖励低的回复会被"下调"概率。 $\beta$ 控制调整的幅度—— $\beta$ 越小，高奖励回复被放大得越多，策略偏离参考模型越远。

关键性质

这个闭式解告诉我们：

当 $\beta \to \infty$ 时， $\pi^* \to \pi_{\text{ref}}$ ：KL 惩罚极强，策略完全不动
当 $\beta \to 0$ 时， $\pi^*$ 趋向于只给最高奖励的 $y$ 赋予概率：完全贪婪
$Z(x)$ 只依赖于 $x$ ，不依赖于具体的 $y$ ：这在后续推导中非常关键

第三步：将奖励表示为策略的函数

核心变换：从策略反推奖励

从第二步的最优策略表达式出发，两边取对数：

\log \pi^*(y|x) = \log \pi_{\text{ref}}(y|x) + \frac{r(x, y)}{\beta} - \log Z(x)

移项得到奖励的策略表达式：

r(x, y) = \beta \log \frac{\pi^*(y|x)}{\pi_{\text{ref}}(y|x)} + \beta \log Z(x)

这一步是 DPO 的核心洞察！ 传统 RLHF 需要一个显式的奖励模型 $r(x,y)$ 。但这个公式告诉我们：奖励函数可以完全用最优策略和参考策略的对数概率比来表示。换言之，最优策略本身就隐式地"编码"了奖励信息。

重参数化技巧

这个变换被称为重参数化技巧（Reparameterization Trick）：我们不再需要显式地学习奖励函数 $r(x,y)$ ，而是直接学习策略 $\pi_\theta$ ，然后通过上述公式隐式地得到奖励。

注意，在实践中我们用参数化策略 $\pi_\theta$ 来近似最优策略 $\pi^*$ ：

r(x, y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)} + \beta \log Z(x)

第四步：代入 Bradley-Terry 模型

回顾 Bradley-Terry 模型

在3.1节中我们介绍了 Bradley-Terry 偏好模型。给定偏好对 $(y_w, y_l)$ （ $y_w$ 被偏好），人类偏好的概率为：

P(y_w \succ y_l | x) = \sigma\left(r(x, y_w) - r(x, y_l)\right)

其中 $\sigma(z) = \frac{1}{1+e^{-z}}$ 是 sigmoid 函数。

代入奖励的策略表达

将第三步得到的奖励表达式代入 Bradley-Terry 模型：

r(x, y_w) - r(x, y_l) = \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} + \cancel{\beta \log Z(x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} - \cancel{\beta \log Z(x)}

关键的一步： $\beta \log Z(x)$ 项只依赖于提示 $x$ ，在 $y_w$ 和 $y_l$ 之间做差时完全消去！

因此：

r(x, y_w) - r(x, y_l) = \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}

DPO 损失函数

最终，DPO 通过最大化偏好数据的对数似然来训练策略，即最小化负对数似然：

\boxed{ \mathcal{L}_{\text{DPO}}(\pi_\theta; \pi_{\text{ref}}) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma \left( \beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} \right) \right] }

这就是 DPO 的全部！ 一个看似复杂的 RLHF 问题，通过四步推导，变成了一个简洁的监督学习损失。不需要训练奖励模型，不需要 PPO，不需要价值网络——只需要在偏好对上最小化这个损失。

理解 DPO 损失函数

损失函数的结构

让我们定义隐式奖励边际（Implicit Reward Margin）：

\hat{r}_\theta(x, y) = \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)}

那么 DPO 损失可以简写为：

\mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\left(\hat{r}_\theta(x, y_w) - \hat{r}_\theta(x, y_l)\right)\right]

直觉：DPO 本质上是在训练一个隐式的奖励模型，奖励定义为策略与参考策略的对数概率比。训练目标是让 chosen 回复的隐式奖励高于 rejected 回复的隐式奖励。

损失值分析

当优化进展顺利时：

$\hat{r}_\theta(x, y_w) > \hat{r}_\theta(x, y_l)$ ：模型正确地给 chosen 更高的隐式奖励
$\sigma(\cdot)$ 的输入为正值， $\sigma > 0.5$
$\log \sigma > \log 0.5 \approx -0.693$
损失值较小

当优化不佳时：

$\hat{r}_\theta(x, y_w) < \hat{r}_\theta(x, y_l)$ ：模型错误地给 rejected 更高的奖励
$\sigma(\cdot)$ 的输入为负值， $\sigma < 0.5$
$\log \sigma < -0.693$
损失值较大，梯度推动模型修正

DPO 梯度分析

梯度公式

对 DPO 损失求关于参数 $\theta$ 的梯度：

\nabla_\theta \mathcal{L}_{\text{DPO}} = -\beta \, \mathbb{E} \left[ \underbrace{\sigma\left(\hat{r}_\theta(x, y_l) - \hat{r}_\theta(x, y_w)\right)}_{\text{权重项}} \left( \underbrace{\nabla_\theta \log \pi_\theta(y_w|x)}_{\text{提升 chosen}} - \underbrace{\nabla_\theta \log \pi_\theta(y_l|x)}_{\text{抑制 rejected}} \right) \right]

梯度的三个组成部分

权重项： $\sigma(\hat{r}_\theta(x, y_l) - \hat{r}_\theta(x, y_w))$

这个 sigmoid 项决定了梯度的强度：

当模型已经正确排序（chosen 的隐式奖励 >> rejected），权重项接近 0，梯度很小——"已经学好了，不用再调"
当模型排序错误（rejected 的隐式奖励 > chosen），权重项接近 1，梯度很大——"还没学会，需要大幅调整"

这是一种自适应学习机制：模型自动聚焦在还没学好的样本上。

提升 chosen： $\nabla_\theta \log \pi_\theta(y_w|x)$

梯度推动模型增加 chosen 回复 $y_w$ 在给定提示 $x$ 下的生成概率。

抑制 rejected： $-\nabla_\theta \log \pi_\theta(y_l|x)$

梯度推动模型降低 rejected 回复 $y_l$ 在给定提示 $x$ 下的生成概率。

与对比学习的联系

DPO 的梯度结构与对比学习（Contrastive Learning）非常相似：

正样本（chosen）被"拉近"——增加其概率
负样本（rejected）被"推远"——降低其概率
学习力度由当前模型的排序能力动态调节

DPO vs RLHF：关键对比

架构对比

方面	RLHF (PPO)	DPO
需要的模型	4个（策略、参考、奖励、价值）	2个（策略、参考）
训练阶段	3个（SFT → RM → PPO）	2个（SFT → DPO）
奖励模型	显式训练	隐式（策略即奖励模型）
RL 循环	需要（PPO）	不需要
训练稳定性	低（奖励黑客、KL 爆炸）	高（简单的监督损失）
内存需求	极高（4个模型）	中等（2个模型）
实现复杂度	高	低
在线探索	有（策略生成新回复）	无（固定数据集）

DPO 的核心优势

简洁性：一个公式，一个损失函数，没有 RL 的复杂性
稳定性：不存在奖励黑客问题（没有显式奖励模型可以被利用）
高效性：只需加载2个模型，内存需求约为 PPO 的一半
易于实现：用标准的深度学习框架即可实现，不需要 RL 基础设施

DPO 的潜在局限

离线数据限制：标准 DPO 使用固定的偏好数据集，无法探索策略空间中的新区域
分布偏移：随着策略优化，训练数据可能变得"过时"——数据中的 $(y_w, y_l)$ 可能与当前策略的生成分布相差甚远
需要参考模型：标准 DPO 需要维护一个冻结的参考模型，增加内存开销

这些局限催生了 DPO 变体：SimPO 解决了参考模型依赖问题，KTO 解决了偏好对数据稀缺问题，在线 DPO 解决了分布偏移问题。我们将在下一节详细介绍。

def dpo_loss(policy_model, ref_model, chosen, rejected, beta=0.1):
    """
    计算 DPO 损失

    Args:
        policy_model: 当前策略模型 π_θ
        ref_model: 参考模型 π_ref (冻结)
        chosen: (prompt, chosen_response) 批次
        rejected: (prompt, rejected_response) 批次
        beta: KL 惩罚系数
    """
    # 计算策略模型的对数概率
    pi_logprobs_chosen = policy_model.log_prob(chosen)
    pi_logprobs_rejected = policy_model.log_prob(rejected)

    # 计算参考模型的对数概率（无梯度）
    with torch.no_grad():
        ref_logprobs_chosen = ref_model.log_prob(chosen)
        ref_logprobs_rejected = ref_model.log_prob(rejected)

    # 计算对数概率比（隐式奖励）
    chosen_reward = beta * (pi_logprobs_chosen - ref_logprobs_chosen)
    rejected_reward = beta * (pi_logprobs_rejected - ref_logprobs_rejected)

    # DPO 损失
    loss = -F.logsigmoid(chosen_reward - rejected_reward).mean()

    return loss

这段代码清晰地展示了 DPO 的实现简洁性——不到20行核心代码就实现了完整的偏好优化。

引言：为什么需要推导 DPO

第一步：RLHF 目标函数

基本设定

KL 散度约束的作用

展开 KL 散度

第二步：闭式最优策略

拉格朗日对偶求解

最优策略的闭式解