LLM 后训练实践
第2课:SFT进阶

第2课:SFT 进阶——数据工程与指令微调深入

掌握指令数据集的构建与质量控制方法,理解数据混合策略,实践 LLM-as-Judge 系统化评估

学习目标

完成本课学习后,你将能够:

  1. 掌握指令数据集的构建方法:从 Self-Instruct 到 MAGPIE 的技术演进
  2. 实施数据质量控制:去重、难度分级、去污染等关键步骤
  3. 理解数据混合策略对模型能力的影响(Tülu 3 方法论)
  4. 配置 SFT 超参数并诊断常见训练问题
  5. 搭建 LLM-as-Judge 评估流程,使用 MT-Bench 风格的提示模板
  6. 完成从数据准备到模型评估的完整指令微调实验

学时分配

环节时长内容
讲授~70 分钟数据集构建、超参数指南、LLM-as-Judge 评估
上机实践~110 分钟构建领域定制 SFT 模型并系统评估

课程内容

与第 1 课的衔接

第 1 课我们学习了 SFT 的基础概念并完成了第一次微调实验。本课将深入数据工程——这是决定 SFT 效果的最关键因素。

核心观点:在 SFT 中,"数据就是一切"。模型架构和训练算法已经相对成熟,数据的质量、多样性和配比才是区分一个好模型和一个平庸模型的关键。

第1课                              第2课
┌──────────────┐            ┌──────────────────┐
│ SFT 基础概念  │            │ 数据工程深入       │
│ LoRA/QLoRA   │ ────────→  │ 超参数调优        │
│ 第一次微调    │            │ 系统化评估        │
└──────────────┘            └──────────────────┘

关键词

Instruction Dataset · Self-Instruct · MAGPIE · Data Mixing · Decontamination · LLM-as-Judge · MT-Bench · Hyperparameter Tuning · Ablation Study