第1课：后训练概述与监督微调基础

理解后训练在 LLM 开发流程中的位置和核心方法体系，掌握 SFT 训练循环，配置 LoRA/QLoRA 进行参数高效训练

学习目标

完成本课学习后，你将能够：

环节	时长	内容
讲授	~80 分钟	后训练概述、SFT 核心概念、参数高效微调、评估方法
上机实践	~100 分钟	微调 Qwen3-1.7B 为指令跟随助手

三阶段 LLM 开发流程、后训练核心方法全景、Tülu 3 黄金标准、Qwen3 四阶段后训练

ChatML / Llama 聊天模板、掩码损失公式、数据质量重于数量

LoRA 原理与公式、QLoRA 量化微调、显存对比、DoRA / Spectrum 简介

LLM-as-Judge、人类偏好排行榜、能力专项基准、安全评估

将 Qwen3-1.7B 微调为指令跟随助手，完整代码与步骤

Post-Training · Supervised Fine-Tuning (SFT) · ChatML · Masked Loss · LoRA · QLoRA · PEFT · LLM-as-Judge · MT-Bench · Qwen3