第1课:后训练概述与SFT基础
第1课:后训练概述与监督微调基础
理解后训练在 LLM 开发流程中的位置和核心方法体系,掌握 SFT 训练循环,配置 LoRA/QLoRA 进行参数高效训练
学习目标
完成本课学习后,你将能够:
- 描述后训练在 LLM 开发三阶段流程中的位置,解释 SFT、DPO、GRPO 三种核心方法的作用
- 理解 Qwen3 的四阶段后训练流程,演示
/think和/no_think模式切换 - 掌握 ChatML 聊天模板格式和掩码损失(masked loss)的原理
- 配置 LoRA/QLoRA 进行参数高效微调,理解关键超参数的含义
- 运用主流评估方法(LLM-as-Judge、人类偏好、能力基准)评价模型质量
- 完成第一次完整的模型微调实验:将 Qwen3-1.7B 基座模型微调为指令跟随助手
学时分配
| 环节 | 时长 | 内容 |
|---|---|---|
| 讲授 | ~80 分钟 | 后训练概述、SFT 核心概念、参数高效微调、评估方法 |
| 上机实践 | ~100 分钟 | 微调 Qwen3-1.7B 为指令跟随助手 |
课程内容
1.1 后训练的定义与基本流程
三阶段 LLM 开发流程、后训练核心方法全景、Tülu 3 黄金标准、Qwen3 四阶段后训练
1.2 监督微调核心概念
ChatML / Llama 聊天模板、掩码损失公式、数据质量重于数量
1.3 参数高效微调
LoRA 原理与公式、QLoRA 量化微调、显存对比、DoRA / Spectrum 简介
1.4 模型评估方法
LLM-as-Judge、人类偏好排行榜、能力专项基准、安全评估
推荐论文
Tülu 3、LoRA、QLoRA、LIMA、MAGPIE 等 5 篇核心论文
上机实验
将 Qwen3-1.7B 微调为指令跟随助手,完整代码与步骤
关键词
Post-Training · Supervised Fine-Tuning (SFT) · ChatML · Masked Loss · LoRA · QLoRA · PEFT · LLM-as-Judge · MT-Bench · Qwen3