LLM 后训练实践
第5课:压缩部署与扩展

第5课 推荐论文

GPTQ、AWQ、LLaVA、ToolACE、DeepSeek-R1 等 5 篇核心论文,涵盖量化、多模态、工具使用与蒸馏

本课推荐 5 篇核心论文,涵盖模型量化、多模态后训练、工具使用和知识蒸馏四个方向。建议至少精读 1-2 篇,其余泛读。

1. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers

Frantar et al. (2023)

大模型量化的代表性工作。提出了基于近似二阶信息(Hessian 矩阵)的逐层最优量化方法,首次实现了 175B 模型的 3-4 bit 量化且精度损失极小。GPTQ 将量化视为优化问题,通过校准数据集上的逐列量化和误差补偿,在 INT4 精度下实现接近 FP16 的质量。该方法已成为大模型部署的标准工具之一。

阅读重点:Section 3(OBQ 到 GPTQ 的加速)、Section 4(实验结果与消融)

2. AWQ: Activation-aware Weight Quantization

Lin et al. (MLSys 2024)

激活感知量化方法。核心观察:不到 1% 的权重通道对模型质量至关重要,这些通道对应着大激活值。AWQ 通过对重要通道的权重施加缩放因子来保护它们,使得均匀量化的误差在这些通道上更小。相比 GPTQ,AWQ 量化速度更快、推理更高效,在 vLLM 等推理框架中被广泛推荐。

阅读重点:Section 3.2(搜索最优缩放因子)、Figure 3(为什么保护 1% 的权重就够了)

3. Visual Instruction Tuning (LLaVA)

Liu et al. (NeurIPS 2023)

视觉指令微调的开创性工作。LLaVA 提出了 VLM 的两阶段训练范式(视觉-语言对齐 → 视觉指令微调),使用 GPT-4 生成的视觉指令数据训练,以极低的成本(不到 1 天训练)实现了接近 GPT-4V 的多模态理解能力。该架构(ViT + MLP 投影 + LLM)已成为 VLM 研究的标准范式,后续的 LLaVA-1.5、LLaVA-OneVision 持续在此基础上改进。

阅读重点:Section 3(两阶段训练流程)、Section 4.1(视觉指令数据生成)

4. ToolACE: Winning the Points of LLM Function Calling

Liu et al. (ICLR 2025)

在函数调用领域,8B 模型超越 GPT-4 的里程碑工作。ToolACE 提出了自动化的工具调用训练数据生成管道,包括多样化的工具定义生成、多层级的数据验证和难度递进策略。仅用约 26K 条训练数据,就在 BFCL(Berkeley Function-Calling Leaderboard)上取得领先成绩,证明了高质量训练数据对工具使用能力的关键作用。

阅读重点:Section 3(数据生成管道)、Section 4(与 GPT-4 的对比实验)

5. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI (2025.01)

蒸馏与推理的里程碑论文。本课重点关注其蒸馏部分:如何将 671B MoE 模型的推理能力高效迁移到 1.5B-70B 的小模型上。DeepSeek-R1-Distill 系列证明了蒸馏在小模型(1.5B-7B)上的效果远优于直接 RL 训练,但也指出了蒸馏的天花板效应。该论文同时展示了完整的四阶段后训练流程(冷启动 SFT → 大规模 GRPO → 拒绝采样 + SFT → 最终 RL),对理解工业级后训练方法论有极高参考价值。

阅读重点:Section 4(蒸馏方法与结果)、Section 5(蒸馏 vs RL 的对比分析)、Appendix(蒸馏模型的推理链示例)

扩展阅读

如果你对某个方向有深入兴趣,以下论文值得参考:

量化方向

论文年份主题
LLM.int8() — Dettmers et al.2022混合精度分解,INT8 量化基础
QLoRA — Dettmers et al.2023NF4 + LoRA,推动微调民主化
SqueezeLLM — Kim et al.2023非均匀量化 + 稀疏存储
QuIP# — Chee et al.2023基于随机旋转的 2-bit 量化

多模态方向

论文年份主题
LLaVA-1.5 — Liu et al.2023LLaVA 改进版,更强的视觉理解
LLaVA-OneVision — Li et al.2024统一图像/视频/多图理解
RLHF-V — Yu et al.2023用 RLHF 减少 VLM 幻觉
InternVL — Chen et al.2023开源多模态模型

工具使用方向

论文年份主题
Gorilla — Patil et al.2023大规模 API 调用
Toolformer — Schick et al.2023自学习使用工具
ReAct — Yao et al.2022推理 + 行动协同

论文阅读建议

阅读策略

  1. 必读:GPTQ 和 DeepSeek-R1(蒸馏部分),这两篇覆盖了本课最核心的技术
  2. 推荐:AWQ(与 GPTQ 对比阅读效果最佳)和 LLaVA(VLM 标准范式)
  3. 选读:ToolACE(如果对工具使用方向感兴趣)
  4. 阅读方法:先读 Abstract 和 Introduction 了解贡献,重点看方法和实验部分,跳过无关的数学推导