LLM 后训练实践
第5课:压缩部署与扩展

第5课:模型压缩、部署优化与能力扩展

掌握模型量化的原理与实践(INT8/INT4/GPTQ/AWQ),理解知识蒸馏在后训练中的角色,了解多模态和工具使用等能力扩展方法

学习目标

完成本课学习后,你将能够:

  1. 解释模型量化的原理,区分 PTQ 与 QAT 两大类方法
  2. 掌握 INT8/INT4/GPTQ/AWQ 四种主流量化方案的特点与适用场景
  3. 理解知识蒸馏的经典范式及其在 LLM 时代的新形态(DeepSeek-R1-Distill、Qwen3 思考模式融合)
  4. 了解多模态后训练(VLM 架构与 LLaVA 两阶段训练)的基本方法
  5. 了解工具使用与函数调用的训练范式(JSON Schema → 结构化调用 → 结果返回)
  6. 完成量化实验:对 Qwen3-8B 进行多精度加载并量化评估压缩对质量的影响
  7. 选做蒸馏分析、多模态实验或工具调用实验之一

学时分配

环节时长内容
讲授~70 分钟模型量化、知识蒸馏、能力扩展概览
上机实践~110 分钟量化实验(必做 60 分钟)+ 能力扩展选做(50 分钟)

课程内容

关键词

Quantization · INT8 · INT4 · GPTQ · AWQ · NormalFloat (NF4) · Knowledge Distillation · DeepSeek-R1-Distill · VLM · LLaVA · Function Calling · MCP · RAG · ToolACE