第5课 推荐论文
GPTQ、AWQ、LLaVA、ToolACE、DeepSeek-R1 等 5 篇核心论文,涵盖量化、多模态、工具使用与蒸馏
本课推荐 5 篇核心论文,涵盖模型量化、多模态后训练、工具使用和知识蒸馏四个方向。建议至少精读 1-2 篇,其余泛读。
1. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers
Frantar et al. (2023)
大模型量化的代表性工作。提出了基于近似二阶信息(Hessian 矩阵)的逐层最优量化方法,首次实现了 175B 模型的 3-4 bit 量化且精度损失极小。GPTQ 将量化视为优化问题,通过校准数据集上的逐列量化和误差补偿,在 INT4 精度下实现接近 FP16 的质量。该方法已成为大模型部署的标准工具之一。
阅读重点:Section 3(OBQ 到 GPTQ 的加速)、Section 4(实验结果与消融)
2. AWQ: Activation-aware Weight Quantization
Lin et al. (MLSys 2024)
激活感知量化方法。核心观察:不到 1% 的权重通道对模型质量至关重要,这些通道对应着大激活值。AWQ 通过对重要通道的权重施加缩放因子来保护它们,使得均匀量化的误差在这些通道上更小。相比 GPTQ,AWQ 量化速度更快、推理更高效,在 vLLM 等推理框架中被广泛推荐。
阅读重点:Section 3.2(搜索最优缩放因子)、Figure 3(为什么保护 1% 的权重就够了)
3. Visual Instruction Tuning (LLaVA)
Liu et al. (NeurIPS 2023)
视觉指令微调的开创性工作。LLaVA 提出了 VLM 的两阶段训练范式(视觉-语言对齐 → 视觉指令微调),使用 GPT-4 生成的视觉指令数据训练,以极低的成本(不到 1 天训练)实现了接近 GPT-4V 的多模态理解能力。该架构(ViT + MLP 投影 + LLM)已成为 VLM 研究的标准范式,后续的 LLaVA-1.5、LLaVA-OneVision 持续在此基础上改进。
阅读重点:Section 3(两阶段训练流程)、Section 4.1(视觉指令数据生成)
4. ToolACE: Winning the Points of LLM Function Calling
Liu et al. (ICLR 2025)
在函数调用领域,8B 模型超越 GPT-4 的里程碑工作。ToolACE 提出了自动化的工具调用训练数据生成管道,包括多样化的工具定义生成、多层级的数据验证和难度递进策略。仅用约 26K 条训练数据,就在 BFCL(Berkeley Function-Calling Leaderboard)上取得领先成绩,证明了高质量训练数据对工具使用能力的关键作用。
阅读重点:Section 3(数据生成管道)、Section 4(与 GPT-4 的对比实验)
5. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
DeepSeek-AI (2025.01)
蒸馏与推理的里程碑论文。本课重点关注其蒸馏部分:如何将 671B MoE 模型的推理能力高效迁移到 1.5B-70B 的小模型上。DeepSeek-R1-Distill 系列证明了蒸馏在小模型(1.5B-7B)上的效果远优于直接 RL 训练,但也指出了蒸馏的天花板效应。该论文同时展示了完整的四阶段后训练流程(冷启动 SFT → 大规模 GRPO → 拒绝采样 + SFT → 最终 RL),对理解工业级后训练方法论有极高参考价值。
阅读重点:Section 4(蒸馏方法与结果)、Section 5(蒸馏 vs RL 的对比分析)、Appendix(蒸馏模型的推理链示例)
扩展阅读
如果你对某个方向有深入兴趣,以下论文值得参考:
量化方向
| 论文 | 年份 | 主题 |
|---|---|---|
| LLM.int8() — Dettmers et al. | 2022 | 混合精度分解,INT8 量化基础 |
| QLoRA — Dettmers et al. | 2023 | NF4 + LoRA,推动微调民主化 |
| SqueezeLLM — Kim et al. | 2023 | 非均匀量化 + 稀疏存储 |
| QuIP# — Chee et al. | 2023 | 基于随机旋转的 2-bit 量化 |
多模态方向
| 论文 | 年份 | 主题 |
|---|---|---|
| LLaVA-1.5 — Liu et al. | 2023 | LLaVA 改进版,更强的视觉理解 |
| LLaVA-OneVision — Li et al. | 2024 | 统一图像/视频/多图理解 |
| RLHF-V — Yu et al. | 2023 | 用 RLHF 减少 VLM 幻觉 |
| InternVL — Chen et al. | 2023 | 开源多模态模型 |
工具使用方向
| 论文 | 年份 | 主题 |
|---|---|---|
| Gorilla — Patil et al. | 2023 | 大规模 API 调用 |
| Toolformer — Schick et al. | 2023 | 自学习使用工具 |
| ReAct — Yao et al. | 2022 | 推理 + 行动协同 |
论文阅读建议
阅读策略:
- 必读:GPTQ 和 DeepSeek-R1(蒸馏部分),这两篇覆盖了本课最核心的技术
- 推荐:AWQ(与 GPTQ 对比阅读效果最佳)和 LLaVA(VLM 标准范式)
- 选读:ToolACE(如果对工具使用方向感兴趣)
- 阅读方法:先读 Abstract 和 Introduction 了解贡献,重点看方法和实验部分,跳过无关的数学推导