LLM 后训练实践

评分标准

课程考核方式、各项评分细则与评分标准详细说明

成绩构成

本课程为考查课,成绩由三部分组成:

考核项比例说明
考勤与课堂参与10%出勤记录及课堂讨论参与度
课程实践(5 次实验报告)50%每次实验提交代码、训练日志和分析报告
期末项目40%小组项目,含项目报告和课堂演示
总成绩 = 考勤(10%) + 实验报告(50%) + 期末项目(40%)
       = 考勤(10%) + 5次实验(每次10%) + 报告(20%) + 演示(20%)

一、考勤与课堂参与(10%)

评分方式

项目分值说明
出勤6 分每次课 1 分,共 6 次
课堂参与4 分提问、讨论、回答问题

课堂参与评估

等级分数标准
优秀4 分积极提问和讨论,回答有深度,能引发有价值的课堂讨论
良好3 分偶尔提问或参与讨论
一般2 分按时出勤但基本不参与讨论
较差0-1 分多次缺勤或完全不参与

鼓励方式:在课堂讨论中提出好问题、分享有价值的发现、帮助其他同学解决问题,都会获得课堂参与分数。不要求每次都发言,但鼓励积极参与。


二、课程实践——实验报告(50%)

总体要求

共 5 次实验报告(第 1-5 课各一次),每次 10%,合计 50%

每次实验报告包含:

  1. 代码:完整可运行的实验代码
  2. 训练日志:训练损失曲线、显存使用、运行时间等
  3. 分析报告:1-2 页的书面分析

单次实验报告评分标准(满分 10 分)

维度分值评分标准
完整性5 分所有实验步骤是否全部完成
分析深度3 分对实验结果的分析是否有洞察
可复现性2 分代码和配置是否可以复现实验结果

完整性评分细则(5 分)

得分标准
5所有必做步骤全部完成,选做内容也有尝试
4所有必做步骤完成,但某些环节缺少细节
3完成大部分步骤(>70%),但有关键步骤遗漏
2完成约一半步骤
1仅完成少量步骤(<30%)
0未提交

分析深度评分细则(3 分)

得分标准
3分析有独到见解,能联系课程理论解释实验现象,提出有价值的改进建议
2能正确描述实验结果并给出合理分析,但缺乏深度
1仅罗列实验结果,缺乏分析
0无分析或分析完全错误

可复现性评分细则(2 分)

得分标准
2代码清晰、有注释,超参数和环境信息完整,他人可直接复现
1代码基本完整但缺少关键配置信息
0代码不完整或无法运行

各课实验的具体交付物

实验:将 Qwen3-1.7B 微调为指令跟随助手

交付物对应评分维度
训练损失曲线完整性
10 条提示的基座/微调模型对比表完整性
超参数实验结果(至少修改1个超参数)完整性
1 页书面分析(数据质量 vs 数量、LoRA 超参数影响)分析深度
完整代码(含注释和超参数记录)可复现性

实验:领域定制指令微调与系统评估

交付物对应评分维度
数据分析报告(含分布图表)完整性
LLM-as-Judge 评分对比表完整性
消融实验结果(数据量/质量/LoRA秩,任选一)完整性
1 页关于"数据工程对 SFT 效果影响"的反思分析深度
完整代码和数据处理脚本可复现性

实验:DPO 对齐与 SimPO 对比

交付物对应评分维度
胜率对比表(SFT vs DPO vs SimPO)完整性
训练损失和奖励边际曲线完整性
安全测试结果(10 条有害请求拒绝率)完整性
1 页分析报告(DPO 优势与局限、SimPO 效率对比)分析深度
完整训练和评估代码可复现性

实验:复现迷你 DeepSeek-R1-Zero

交付物对应评分维度
训练奖励曲线图完整性
5 个推理链示例(展示训练过程中的演化)完整性
GSM8K 测试准确率四方对比表完整性
1 页分析(是否观察到"推理涌现"、与蒸馏/SFT 的区别)分析深度
完整代码(含奖励函数和训练配置)可复现性

实验:量化实验 + 能力扩展选做

交付物对应评分维度
三种精度的显存/速度/质量对比报告完整性
选做实验(三选一)的分析报告完整性
1 页总结(后训练各环节的关系与选择策略)分析深度
完整代码和实验记录可复现性

特殊情况:如因 GPU 资源不可用、身体原因等特殊情况无法按时完成,请提前与教师沟通申请延期。提前申请通常可以获得 2-3 天的宽限。


三、期末项目(40%)

期末项目分为**项目报告(20%)课堂演示(20%)**两部分。

项目报告评分标准(20%)

维度分值优秀 (90-100%)良好 (70-89%)及格 (60-69%)不及格 (<60%)
技术深度8%创新组合 2+ 技术,深入消融正确使用 2 种技术,有基本消融使用 2 种技术但缺乏分析仅 1 种技术
实验质量6%多指标多基线,结果可复现评估较全面,主要结果可复现基本评估,部分缺失评估不完整
报告撰写6%逻辑清晰、图表专业、有洞察结构合理、内容完整基本完整但浅结构混乱

课堂演示评分标准(20%)

维度分值优秀 (90-100%)良好 (70-89%)及格 (60-69%)不及格 (<60%)
展示效果8%Demo 流畅有说服力,对比清晰Demo 基本流畅,有对比Demo 勉强运行无 Demo
表达清晰6%逻辑清晰、重点突出、控时好表达较清楚逻辑不清混乱超时
回答质量6%有深入思考,回答准确基本能回答回答较浅无法回答

加分项(最多 +5 分,加分后总分不超过 100)

加分项分值说明
创新性方法组合+2超出课程范围的技术尝试
高质量可视化+1专业的图表和训练曲线
深入的失败分析+1对失败实验的有价值反思
与前沿论文对比+1将结果与相关论文对比讨论
可复用代码/工具+1代码整理完善,他人可复用

学术诚信

禁止以下行为

  1. 抄袭他人代码或报告(允许参考但必须注明来源并用自己的话重写)
  2. 提交 AI 生成的未经修改的实验报告(允许使用 AI 辅助编码和写作,但必须理解并能解释所有内容)
  3. 提交伪造的实验结果(如编造训练曲线或评估分数)
  4. 两组或多组提交高度雷同的报告

AI 工具使用政策

本课程鼓励合理使用 AI 工具(如 ChatGPT、Claude、GitHub Copilot),但有以下要求:

  1. 代码:可以使用 AI 辅助编写,但必须理解每一行代码的作用,在报告中说明哪些部分使用了 AI 辅助
  2. 报告:可以使用 AI 辅助润色语言,但核心分析和见解必须是自己的
  3. 演示 Q&A:回答问题时需要展示对代码和方法的真正理解

常见问题

Q: 实验做不完怎么办?

A: 每次实验都有"必做"和"选做"部分。完成所有必做部分即可获得基础分(约 7-8/10 分)。选做部分和深入分析是加分项。如果 GPU 资源或时间确实不足,请在报告中说明遇到的问题和尝试的解决方案——这本身也是有价值的分析。

Q: 期末项目可以用课程以外的模型吗?

A: 可以,但建议至少使用一个 Qwen3 系列模型作为基线对比。使用其他模型(如 Llama、Mistral)做额外实验是加分项。

Q: 小组成员贡献不均怎么办?

A: 项目报告中需明确说明每位成员的贡献。如果组内存在严重的贡献不均,教师可能会根据个人贡献调整个人成绩(浮动范围 +-10%)。