LLM 后训练实践
第6课:项目报告与总结

第6课:课程项目报告与总结

课程项目报告展示、评分标准,以及后训练技术全景回顾与前沿展望

学习目标

完成本课学习后,你将能够:

  1. 展示结合至少两种后训练技术的完整项目成果(数据准备 → 训练 → 评估)
  2. 对比不同后训练技术组合的效果差异,分析各方法的适用场景
  3. 总结后训练的完整技术图谱:SFT → DPO → GRPO → 量化/蒸馏/多模态/工具使用
  4. 展望后训练领域的前沿方向:高效 RL、多模态推理、长上下文、自我改进

学时分配

环节时长内容
项目演示~150 分钟每组 15 分钟(含 Q&A),约 10 组
课程总结~30 分钟技术图谱回顾、前沿方向展望

课程内容

项目要求概览

学生以 2-3 人小组形式,完成一个结合至少两种后训练技术的真实场景项目:

项目核心要求

  1. 必须使用至少两种后训练技术(如 SFT + DPO、SFT + GRPO、SFT + 量化 + 部署等)
  2. 完成完整的"数据准备 → 训练 → 评估"流程
  3. 提交项目报告和代码
  4. 在课堂上进行 15 分钟的演示

关键词

Final Project · Presentation · Post-Training Pipeline · Technology Map · Frontier Directions · Efficient RL · Multimodal Reasoning · Self-Improvement