第2课:SFT进阶
第2课:SFT 进阶——数据工程与指令微调深入
掌握指令数据集的构建与质量控制方法,理解数据混合策略,实践 LLM-as-Judge 系统化评估
学习目标
完成本课学习后,你将能够:
- 掌握指令数据集的构建方法:从 Self-Instruct 到 MAGPIE 的技术演进
- 实施数据质量控制:去重、难度分级、去污染等关键步骤
- 理解数据混合策略对模型能力的影响(Tülu 3 方法论)
- 配置 SFT 超参数并诊断常见训练问题
- 搭建 LLM-as-Judge 评估流程,使用 MT-Bench 风格的提示模板
- 完成从数据准备到模型评估的完整指令微调实验
学时分配
| 环节 | 时长 | 内容 |
|---|---|---|
| 讲授 | ~70 分钟 | 数据集构建、超参数指南、LLM-as-Judge 评估 |
| 上机实践 | ~110 分钟 | 构建领域定制 SFT 模型并系统评估 |
课程内容
2.1 指令数据集构建方法
Self-Instruct → Alpaca → UltraChat → MAGPIE 的技术演进,数据质量控制,数据混合策略
2.2 SFT 超参数实践指南
学习率、批量大小、训练轮数等超参数选择,常见问题诊断与解决
2.3 LLM-as-Judge 评估方法
MT-Bench 评估框架详解,评判提示模板,位置偏差与评委选择
推荐论文
Pareja 等、Self-Instruct、MT-Bench、UltraChat、Deita 等 5 篇核心论文
上机实验
构建领域定制 SFT 模型并使用 LLM-as-Judge 系统评估
与第 1 课的衔接
第 1 课我们学习了 SFT 的基础概念并完成了第一次微调实验。本课将深入数据工程——这是决定 SFT 效果的最关键因素。
核心观点:在 SFT 中,"数据就是一切"。模型架构和训练算法已经相对成熟,数据的质量、多样性和配比才是区分一个好模型和一个平庸模型的关键。
第1课 第2课
┌──────────────┐ ┌──────────────────┐
│ SFT 基础概念 │ │ 数据工程深入 │
│ LoRA/QLoRA │ ────────→ │ 超参数调优 │
│ 第一次微调 │ │ 系统化评估 │
└──────────────┘ └──────────────────┘关键词
Instruction Dataset · Self-Instruct · MAGPIE · Data Mixing · Decontamination · LLM-as-Judge · MT-Bench · Hyperparameter Tuning · Ablation Study