课程内容
6 次课程,从微调到对齐到推理强化,完整覆盖后训练技术体系
1
后训练概述与 SFT 基础
理解后训练在 LLM 开发流程中的位置,掌握 SFT 训练循环与参数高效微调。
三阶段流程ChatMLLoRA/QLoRA模型评估
2
SFT 进阶:数据工程
掌握指令数据集构建与质量控制,实践从数据准备到系统评估的完整流程。
Self-InstructMAGPIE超参数调优LLM-as-Judge
3
偏好对齐:DPO 及其变体
从 RLHF 目标推导 DPO 损失函数,实现偏好对齐训练并对比变体。
DPO 推导SimPOKTOORPO
4
RLHF 与推理强化学习
理解完整 RLHF 流程,掌握 GRPO 算法,复现迷你 R1-Zero 实验。
PPOGRPODeepSeek-R1推理涌现
5
压缩部署与能力扩展
掌握量化方法与知识蒸馏,了解多模态和工具使用等扩展能力。
INT4/INT8GPTQ/AWQ蒸馏多模态/MCP
6
项目报告与课程总结
小组项目报告,回顾后训练完整技术体系,展望前沿方向。
项目演示技术图谱前沿展望
学习收获
掌握从微调到部署的完整后训练技术栈
🎯
监督微调 SFT
掌握指令数据构建、ChatML 格式、LoRA/QLoRA 参数高效微调
⚖️
偏好对齐 DPO
理解 DPO 数学推导,实现偏好对齐训练,对比 SimPO/KTO 变体
🧠
推理强化 GRPO
复现推理涌现实验,掌握可验证奖励的强化学习方法
🚀
部署优化
实践模型量化与蒸馏,了解多模态、工具使用等能力扩展
技术栈
基于主流开源框架,完成从微调到对齐到推理强化的全流程实践
Qwen3
Hugging Face TRL
PEFT
Transformers
vLLM
LLaMA-Factory
bitsandbytes
计算资源配置
推荐 AutoDL 租用 GPU,学期总费用约 100 元/人
| 配置等级 | GPU 要求 | 适用模型 | 方法 |
|---|---|---|---|
| 最低配置 | 1× T4 16GB | Qwen3-0.6B / 1.7B | QLoRA 4-bit |
| 标准配置(推荐) | 1× A100-40G | Qwen3-1.7B / 4B | LoRA 16-bit |
| 进阶配置 | 1× A100-80G | Qwen3-8B | LoRA 16-bit |
| 高级项目 | 2× A100-80G | Qwen3-8B / 30B-A3B | GRPO/PPO + vLLM |