第5课推荐论文

GPTQ、AWQ、LLaVA、ToolACE、DeepSeek-R1 等 5 篇核心论文，涵盖量化、多模态、工具使用与蒸馏

本课推荐 5 篇核心论文，涵盖模型量化、多模态后训练、工具使用和知识蒸馏四个方向。建议至少精读 1-2 篇，其余泛读。

1. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

Frantar et al. (2023)

大模型量化的代表性工作。提出了基于近似二阶信息（Hessian 矩阵）的逐层最优量化方法，首次实现了 175B 模型的 3-4 bit 量化且精度损失极小。GPTQ 将量化视为优化问题，通过校准数据集上的逐列量化和误差补偿，在 INT4 精度下实现接近 FP16 的质量。该方法已成为大模型部署的标准工具之一。

阅读重点：Section 3（OBQ 到 GPTQ 的加速）、Section 4（实验结果与消融）

2. AWQ: Activation-aware Weight Quantization

Lin et al. (MLSys 2024)

激活感知量化方法。核心观察：不到 1% 的权重通道对模型质量至关重要，这些通道对应着大激活值。AWQ 通过对重要通道的权重施加缩放因子来保护它们，使得均匀量化的误差在这些通道上更小。相比 GPTQ，AWQ 量化速度更快、推理更高效，在 vLLM 等推理框架中被广泛推荐。

阅读重点：Section 3.2（搜索最优缩放因子）、Figure 3（为什么保护 1% 的权重就够了）

3. Visual Instruction Tuning (LLaVA)

Liu et al. (NeurIPS 2023)

视觉指令微调的开创性工作。LLaVA 提出了 VLM 的两阶段训练范式（视觉-语言对齐 → 视觉指令微调），使用 GPT-4 生成的视觉指令数据训练，以极低的成本（不到 1 天训练）实现了接近 GPT-4V 的多模态理解能力。该架构（ViT + MLP 投影 + LLM）已成为 VLM 研究的标准范式，后续的 LLaVA-1.5、LLaVA-OneVision 持续在此基础上改进。

阅读重点：Section 3（两阶段训练流程）、Section 4.1（视觉指令数据生成）

4. ToolACE: Winning the Points of LLM Function Calling

Liu et al. (ICLR 2025)

在函数调用领域，8B 模型超越 GPT-4 的里程碑工作。ToolACE 提出了自动化的工具调用训练数据生成管道，包括多样化的工具定义生成、多层级的数据验证和难度递进策略。仅用约 26K 条训练数据，就在 BFCL（Berkeley Function-Calling Leaderboard）上取得领先成绩，证明了高质量训练数据对工具使用能力的关键作用。

阅读重点：Section 3（数据生成管道）、Section 4（与 GPT-4 的对比实验）

5. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI (2025.01)

蒸馏与推理的里程碑论文。本课重点关注其蒸馏部分：如何将 671B MoE 模型的推理能力高效迁移到 1.5B-70B 的小模型上。DeepSeek-R1-Distill 系列证明了蒸馏在小模型（1.5B-7B）上的效果远优于直接 RL 训练，但也指出了蒸馏的天花板效应。该论文同时展示了完整的四阶段后训练流程（冷启动 SFT → 大规模 GRPO → 拒绝采样 + SFT → 最终 RL），对理解工业级后训练方法论有极高参考价值。

阅读重点：Section 4（蒸馏方法与结果）、Section 5（蒸馏 vs RL 的对比分析）、Appendix（蒸馏模型的推理链示例）

扩展阅读

如果你对某个方向有深入兴趣，以下论文值得参考：

量化方向

论文	年份	主题
LLM.int8() — Dettmers et al.	2022	混合精度分解，INT8 量化基础
QLoRA — Dettmers et al.	2023	NF4 + LoRA，推动微调民主化
SqueezeLLM — Kim et al.	2023	非均匀量化 + 稀疏存储
QuIP# — Chee et al.	2023	基于随机旋转的 2-bit 量化

多模态方向

论文	年份	主题
LLaVA-1.5 — Liu et al.	2023	LLaVA 改进版，更强的视觉理解
LLaVA-OneVision — Li et al.	2024	统一图像/视频/多图理解
RLHF-V — Yu et al.	2023	用 RLHF 减少 VLM 幻觉
InternVL — Chen et al.	2023	开源多模态模型

工具使用方向

论文	年份	主题
Gorilla — Patil et al.	2023	大规模 API 调用
Toolformer — Schick et al.	2023	自学习使用工具
ReAct — Yao et al.	2022	推理 + 行动协同

论文阅读建议

阅读策略：

必读：GPTQ 和 DeepSeek-R1（蒸馏部分），这两篇覆盖了本课最核心的技术
推荐：AWQ（与 GPTQ 对比阅读效果最佳）和 LLaVA（VLM 标准范式）
选读：ToolACE（如果对工具使用方向感兴趣）
阅读方法：先读 Abstract 和 Introduction 了解贡献，重点看方法和实验部分，跳过无关的数学推导

第5课 推荐论文