LLM 后训练实践

第2课：SFT进阶

第2课：SFT 进阶——数据工程与指令微调深入

掌握指令数据集的构建与质量控制方法，理解数据混合策略，实践 LLM-as-Judge 系统化评估

学习目标

完成本课学习后，你将能够：

掌握指令数据集的构建方法：从 Self-Instruct 到 MAGPIE 的技术演进
实施数据质量控制：去重、难度分级、去污染等关键步骤
理解数据混合策略对模型能力的影响（Tülu 3 方法论）
配置 SFT 超参数并诊断常见训练问题
搭建 LLM-as-Judge 评估流程，使用 MT-Bench 风格的提示模板
完成从数据准备到模型评估的完整指令微调实验

学时分配

环节	时长	内容
讲授	~70 分钟	数据集构建、超参数指南、LLM-as-Judge 评估
上机实践	~110 分钟	构建领域定制 SFT 模型并系统评估

课程内容

2.1 指令数据集构建方法

Self-Instruct → Alpaca → UltraChat → MAGPIE 的技术演进，数据质量控制，数据混合策略

2.2 SFT 超参数实践指南

学习率、批量大小、训练轮数等超参数选择，常见问题诊断与解决

2.3 LLM-as-Judge 评估方法

MT-Bench 评估框架详解，评判提示模板，位置偏差与评委选择

推荐论文

Pareja 等、Self-Instruct、MT-Bench、UltraChat、Deita 等 5 篇核心论文

上机实验

构建领域定制 SFT 模型并使用 LLM-as-Judge 系统评估

与第 1 课的衔接

第 1 课我们学习了 SFT 的基础概念并完成了第一次微调实验。本课将深入数据工程——这是决定 SFT 效果的最关键因素。

核心观点：在 SFT 中，"数据就是一切"。模型架构和训练算法已经相对成熟，数据的质量、多样性和配比才是区分一个好模型和一个平庸模型的关键。

关键词

Instruction Dataset · Self-Instruct · MAGPIE · Data Mixing · Decontamination · LLM-as-Judge · MT-Bench · Hyperparameter Tuning · Ablation Study

实验1：微调 Qwen3-1.7B 为指令跟随助手

使用 QLoRA 和 SFTTrainer 将 Qwen3-1.7B 基座模型微调为指令跟随助手的完整实验

2.1 指令数据集构建方法

从 Self-Instruct 到 MAGPIE 的指令数据集技术演进，数据质量控制方法，数据混合策略

On this page

学习目标学时分配课程内容与第 1 课的衔接关键词