LLM 后训练实践
第1课:后训练概述与SFT基础

第1课:后训练概述与监督微调基础

理解后训练在 LLM 开发流程中的位置和核心方法体系,掌握 SFT 训练循环,配置 LoRA/QLoRA 进行参数高效训练

学习目标

完成本课学习后,你将能够:

  1. 描述后训练在 LLM 开发三阶段流程中的位置,解释 SFT、DPO、GRPO 三种核心方法的作用
  2. 理解 Qwen3 的四阶段后训练流程,演示 /think/no_think 模式切换
  3. 掌握 ChatML 聊天模板格式和掩码损失(masked loss)的原理
  4. 配置 LoRA/QLoRA 进行参数高效微调,理解关键超参数的含义
  5. 运用主流评估方法(LLM-as-Judge、人类偏好、能力基准)评价模型质量
  6. 完成第一次完整的模型微调实验:将 Qwen3-1.7B 基座模型微调为指令跟随助手

学时分配

环节时长内容
讲授~80 分钟后训练概述、SFT 核心概念、参数高效微调、评估方法
上机实践~100 分钟微调 Qwen3-1.7B 为指令跟随助手

课程内容

关键词

Post-Training · Supervised Fine-Tuning (SFT) · ChatML · Masked Loss · LoRA · QLoRA · PEFT · LLM-as-Judge · MT-Bench · Qwen3