第6课:项目报告与总结
第6课:课程项目报告与总结
课程项目报告展示、评分标准,以及后训练技术全景回顾与前沿展望
学习目标
完成本课学习后,你将能够:
- 展示结合至少两种后训练技术的完整项目成果(数据准备 → 训练 → 评估)
- 对比不同后训练技术组合的效果差异,分析各方法的适用场景
- 总结后训练的完整技术图谱:SFT → DPO → GRPO → 量化/蒸馏/多模态/工具使用
- 展望后训练领域的前沿方向:高效 RL、多模态推理、长上下文、自我改进
学时分配
| 环节 | 时长 | 内容 |
|---|---|---|
| 项目演示 | ~150 分钟 | 每组 15 分钟(含 Q&A),约 10 组 |
| 课程总结 | ~30 分钟 | 技术图谱回顾、前沿方向展望 |
课程内容
推荐项目方向
7 个推荐方向:数学推理、安全对齐、中文写作、代码推理、领域问答、视觉问答、工具调用
演示指南与评分标准
15 分钟演示格式、评分细则、高质量演示技巧
课程总结与展望
后训练技术全景图、各技术回顾、前沿方向展望
项目要求概览
学生以 2-3 人小组形式,完成一个结合至少两种后训练技术的真实场景项目:
项目核心要求:
- 必须使用至少两种后训练技术(如 SFT + DPO、SFT + GRPO、SFT + 量化 + 部署等)
- 完成完整的"数据准备 → 训练 → 评估"流程
- 提交项目报告和代码
- 在课堂上进行 15 分钟的演示
关键词
Final Project · Presentation · Post-Training Pipeline · Technology Map · Frontier Directions · Efficient RL · Multimodal Reasoning · Self-Improvement