第1课:后训练概述与SFT基础
第1课 推荐论文
第1课推荐阅读的 5 篇核心论文:Tülu 3、LoRA、QLoRA、LIMA、MAGPIE
核心论文列表
以下 5 篇论文覆盖了第 1 课的核心知识点:开源后训练流程、参数高效微调、数据质量与合成数据方法。建议按顺序阅读。
Tülu 3: Pushing Frontiers in Open Language Model Post-Training
Lambert 等(2024.11)——最完整的开源后训练方案,涵盖 SFT → DPO → RLVR 全流程,提供了数据混合、超参数选择等系统性消融实验。开源后训练的黄金参考。
LoRA: Low-Rank Adaptation of Large Language Models
Hu 等(2021)——参数高效微调(PEFT)的奠基论文。提出通过低秩矩阵分解冻结原始权重、仅训练极少量参数的方法,使大模型微调成为可能。必读经典。
QLoRA: Efficient Finetuning of Quantized LLMs
Dettmers 等(2023)——在 LoRA 基础上引入 4-bit NF4 量化,使大模型微调走向消费级 GPU。提出的 NormalFloat 量化和双重量化技术被广泛采用。
LIMA: Less Is More for Alignment
Zhou 等(2023)——仅用 1,000 条精选数据进行 SFT,效果接近甚至超越使用 50,000 条数据训练的模型。提出"表层对齐假说":SFT 的作用是激活预训练知识,而非注入新知识。
MAGPIE: Alignment Data Synthesis from Scratch
Xu 等(ICLR 2025)——利用对齐模型的自动补全能力从零生成高质量指令数据,无需种子数据。代表了合成数据生成的前沿方法。
阅读建议
阅读优先级:
- 必读:LoRA 和 LIMA——这两篇分别是参数高效微调和数据质量的核心论文,内容清晰易懂
- 推荐:Tülu 3——理解完整的后训练流程设计
- 选读:QLoRA 和 MAGPIE——深入理解量化微调和数据合成方法
扩展阅读
- Qwen3 Technical Report(arXiv:2505.09388)——Qwen3 的完整技术报告,第 4 节详述四阶段后训练流程
- Hugging Face PEFT 文档——LoRA/QLoRA 的工程实现参考
- Nathan Lambert, 《Reinforcement Learning from Human Feedback》(rlhfbook.com)——第一本 RLHF 综合教材