第5课：模型压缩、部署优化与能力扩展

掌握模型量化的原理与实践（INT8/INT4/GPTQ/AWQ），理解知识蒸馏在后训练中的角色，了解多模态和工具使用等能力扩展方法

学习目标

完成本课学习后，你将能够：

解释模型量化的原理，区分 PTQ 与 QAT 两大类方法
掌握 INT8/INT4/GPTQ/AWQ 四种主流量化方案的特点与适用场景
理解知识蒸馏的经典范式及其在 LLM 时代的新形态（DeepSeek-R1-Distill、Qwen3 思考模式融合）
了解多模态后训练（VLM 架构与 LLaVA 两阶段训练）的基本方法
了解工具使用与函数调用的训练范式（JSON Schema → 结构化调用 → 结果返回）
完成量化实验：对 Qwen3-8B 进行多精度加载并量化评估压缩对质量的影响
选做蒸馏分析、多模态实验或工具调用实验之一

学时分配

环节	时长	内容
讲授	~70 分钟	模型量化、知识蒸馏、能力扩展概览
上机实践	~110 分钟	量化实验（必做 60 分钟）+ 能力扩展选做（50 分钟）

课程内容

5.1 模型量化

FP16/INT8/INT4 量化原理、bitsandbytes LLM.int8()、NF4、GPTQ、AWQ、精度-速度-显存权衡

5.2 知识蒸馏

Hinton 经典蒸馏、DeepSeek-R1-Distill 系列、蒸馏 vs RL 训练、Qwen3 思考模式融合

5.3 能力扩展概览

多模态后训练（VLM/LLaVA）、工具使用与智能体（函数调用/MCP）、知识编辑（参数编辑/RAG）

上机实验

量化实验（必做）+ 蒸馏/多模态/工具使用三选一（选做），完整代码与步骤

关键词

Quantization · INT8 · INT4 · GPTQ · AWQ · NormalFloat (NF4) · Knowledge Distillation · DeepSeek-R1-Distill · VLM · LLaVA · Function Calling · MCP · RAG · ToolACE