LLM 后训练实践
课程资源

完整参考文献

按课次整理的全部推荐论文、教材和在线资源

教材与综合资源

资源作者年份说明
Qwen3 Technical ReportQwen Team2025Qwen3 系列完整技术报告,贯穿全课程
Reinforcement Learning from Human FeedbackNathan Lambert2025第一本 RLHF 综合教材,免费获取
Hugging Face smol-courseHugging Face2024开源实践迷你课程,涵盖 SFT、DPO、VLM
Hugging Face Alignment HandbookHugging Face2024生产级 SFT → DPO/ORPO 流程方案
Stanford CS336: Language Modeling from ScratchStanford2025作业5涵盖对齐与推理 RL
Intro to Post-TrainingDeepLearning.AI20255模块视频课程

第1课:后训练概述与监督微调基础

核心论文

扩展阅读


第2课:SFT 进阶与数据工程

核心论文

扩展阅读


第3课:偏好对齐——DPO 及其变体

核心论文

扩展阅读


第4课:RLHF 原理与推理强化学习(GRPO)

核心论文

扩展阅读


第5课:模型压缩、部署优化与能力扩展

核心论文

扩展阅读

量化方向

多模态方向

工具使用方向

知识蒸馏方向


开源框架与工具

框架用途GitHub课程中使用
Hugging Face Transformers模型加载与推理github.com/huggingface/transformers全部课次
TRLSFT/DPO/GRPO 训练github.com/huggingface/trl第1-4课
PEFTLoRA/QLoRA 适配器github.com/huggingface/peft第1-4课
bitsandbytes量化工具github.com/bitsandbytes-foundation/bitsandbytes第1、5课
LLaMA-Factory一站式微调框架github.com/hiyouga/LLaMA-Factory第5课选做
vLLM高性能推理引擎github.com/vllm-project/vllm第4-5课
OpenRLHF分布式 RLHF 框架github.com/OpenRLHF/OpenRLHF参考
veRL大规模 GRPO 训练github.com/volcengine/verl参考
Outlines约束解码github.com/outlines-dev/outlines第5课

数据集索引

数据集类型规模课次链接
UltraChat-200K多轮对话200K第1课HuggingFace
UltraFeedback偏好数据64K第3课HuggingFace
GSM8K数学推理8.8K第4课HuggingFace
COIG-CQIA中文指令多种第2课HuggingFace
PKU-SafeRLHF安全偏好361K期末项目HuggingFace
LLaVA-Instruct-150K视觉指令150K期末项目HuggingFace
Glaive FC v2函数调用113K第5课/期末HuggingFace

推荐学习路径

论文阅读建议:每课精读 1-2 篇核心论文(标记为"必读"的),其余泛读 Abstract 和实验部分。整个课程建议精读 8-10 篇论文,泛读 15-20 篇。

阶段重点论文阅读优先级
入门(第1-2课)LoRA, QLoRA, LIMA必读
对齐(第3课)DPO, SimPO必读
推理(第4课)DeepSeek-R1, GRPO必读
部署(第5课)GPTQ 或 AWQ (选一), LLaVA推荐
综合(第6课)Tülu 3, Qwen3 Technical Report必读