第1课推荐论文

第1课推荐阅读的 5 篇核心论文：Tülu 3、LoRA、QLoRA、LIMA、MAGPIE

核心论文列表

以下 5 篇论文覆盖了第 1 课的核心知识点：开源后训练流程、参数高效微调、数据质量与合成数据方法。建议按顺序阅读。

Lambert 等（2024.11）——最完整的开源后训练方案，涵盖 SFT → DPO → RLVR 全流程，提供了数据混合、超参数选择等系统性消融实验。开源后训练的黄金参考。

Hu 等（2021）——参数高效微调（PEFT）的奠基论文。提出通过低秩矩阵分解冻结原始权重、仅训练极少量参数的方法，使大模型微调成为可能。必读经典。

Dettmers 等（2023）——在 LoRA 基础上引入 4-bit NF4 量化，使大模型微调走向消费级 GPU。提出的 NormalFloat 量化和双重量化技术被广泛采用。

Zhou 等（2023）——仅用 1,000 条精选数据进行 SFT，效果接近甚至超越使用 50,000 条数据训练的模型。提出"表层对齐假说"：SFT 的作用是激活预训练知识，而非注入新知识。

Xu 等（ICLR 2025）——利用对齐模型的自动补全能力从零生成高质量指令数据，无需种子数据。代表了合成数据生成的前沿方法。

阅读优先级：

Qwen3 Technical Report（arXiv:2505.09388）——Qwen3 的完整技术报告，第 4 节详述四阶段后训练流程
Hugging Face PEFT 文档——LoRA/QLoRA 的工程实现参考
Nathan Lambert, 《Reinforcement Learning from Human Feedback》（rlhfbook.com）——第一本 RLHF 综合教材