第5课:压缩部署与扩展
第5课:模型压缩、部署优化与能力扩展
掌握模型量化的原理与实践(INT8/INT4/GPTQ/AWQ),理解知识蒸馏在后训练中的角色,了解多模态和工具使用等能力扩展方法
学习目标
完成本课学习后,你将能够:
- 解释模型量化的原理,区分 PTQ 与 QAT 两大类方法
- 掌握 INT8/INT4/GPTQ/AWQ 四种主流量化方案的特点与适用场景
- 理解知识蒸馏的经典范式及其在 LLM 时代的新形态(DeepSeek-R1-Distill、Qwen3 思考模式融合)
- 了解多模态后训练(VLM 架构与 LLaVA 两阶段训练)的基本方法
- 了解工具使用与函数调用的训练范式(JSON Schema → 结构化调用 → 结果返回)
- 完成量化实验:对 Qwen3-8B 进行多精度加载并量化评估压缩对质量的影响
- 选做蒸馏分析、多模态实验或工具调用实验之一
学时分配
| 环节 | 时长 | 内容 |
|---|---|---|
| 讲授 | ~70 分钟 | 模型量化、知识蒸馏、能力扩展概览 |
| 上机实践 | ~110 分钟 | 量化实验(必做 60 分钟)+ 能力扩展选做(50 分钟) |
课程内容
5.1 模型量化
FP16/INT8/INT4 量化原理、bitsandbytes LLM.int8()、NF4、GPTQ、AWQ、精度-速度-显存权衡
5.2 知识蒸馏
Hinton 经典蒸馏、DeepSeek-R1-Distill 系列、蒸馏 vs RL 训练、Qwen3 思考模式融合
5.3 能力扩展概览
多模态后训练(VLM/LLaVA)、工具使用与智能体(函数调用/MCP)、知识编辑(参数编辑/RAG)
推荐论文
GPTQ、AWQ、LLaVA、ToolACE、DeepSeek-R1 等 5 篇核心论文
上机实验
量化实验(必做)+ 蒸馏/多模态/工具使用三选一(选做),完整代码与步骤
关键词
Quantization · INT8 · INT4 · GPTQ · AWQ · NormalFloat (NF4) · Knowledge Distillation · DeepSeek-R1-Distill · VLM · LLaVA · Function Calling · MCP · RAG · ToolACE