评分标准

成绩构成

本课程为考查课，成绩由三部分组成：

考核项	比例	说明
考勤与课堂参与	10%	出勤记录及课堂讨论参与度
课程实践（5 次实验报告）	50%	每次实验提交代码、训练日志和分析报告
期末项目	40%	小组项目，含项目报告和课堂演示

总成绩 = 考勤(10%) + 实验报告(50%) + 期末项目(40%)
       = 考勤(10%) + 5次实验(每次10%) + 报告(20%) + 演示(20%)

一、考勤与课堂参与（10%）

评分方式

项目	分值	说明
出勤	6 分	每次课 1 分，共 6 次
课堂参与	4 分	提问、讨论、回答问题

课堂参与评估

等级	分数	标准
优秀	4 分	积极提问和讨论，回答有深度，能引发有价值的课堂讨论
良好	3 分	偶尔提问或参与讨论
一般	2 分	按时出勤但基本不参与讨论
较差	0-1 分	多次缺勤或完全不参与

鼓励方式：在课堂讨论中提出好问题、分享有价值的发现、帮助其他同学解决问题，都会获得课堂参与分数。不要求每次都发言，但鼓励积极参与。

二、课程实践——实验报告（50%）

总体要求

共 5 次实验报告（第 1-5 课各一次），每次 10%，合计 50%。

每次实验报告包含：

代码：完整可运行的实验代码
训练日志：训练损失曲线、显存使用、运行时间等
分析报告：1-2 页的书面分析

单次实验报告评分标准（满分 10 分）

维度	分值	评分标准
完整性	5 分	所有实验步骤是否全部完成
分析深度	3 分	对实验结果的分析是否有洞察
可复现性	2 分	代码和配置是否可以复现实验结果

完整性评分细则（5 分）

得分	标准
5	所有必做步骤全部完成，选做内容也有尝试
4	所有必做步骤完成，但某些环节缺少细节
3	完成大部分步骤（>70%），但有关键步骤遗漏
2	完成约一半步骤
1	仅完成少量步骤（<30%）
0	未提交

分析深度评分细则（3 分）

得分	标准
3	分析有独到见解，能联系课程理论解释实验现象，提出有价值的改进建议
2	能正确描述实验结果并给出合理分析，但缺乏深度
1	仅罗列实验结果，缺乏分析
0	无分析或分析完全错误

可复现性评分细则（2 分）

得分	标准
2	代码清晰、有注释，超参数和环境信息完整，他人可直接复现
1	代码基本完整但缺少关键配置信息
0	代码不完整或无法运行

各课实验的具体交付物

实验：将 Qwen3-1.7B 微调为指令跟随助手

交付物	对应评分维度
训练损失曲线	完整性
10 条提示的基座/微调模型对比表	完整性
超参数实验结果（至少修改1个超参数）	完整性
1 页书面分析（数据质量 vs 数量、LoRA 超参数影响）	分析深度
完整代码（含注释和超参数记录）	可复现性

实验：领域定制指令微调与系统评估

交付物	对应评分维度
数据分析报告（含分布图表）	完整性
LLM-as-Judge 评分对比表	完整性
消融实验结果（数据量/质量/LoRA秩，任选一）	完整性
1 页关于"数据工程对 SFT 效果影响"的反思	分析深度
完整代码和数据处理脚本	可复现性

实验：DPO 对齐与 SimPO 对比

交付物	对应评分维度
胜率对比表（SFT vs DPO vs SimPO）	完整性
训练损失和奖励边际曲线	完整性
安全测试结果（10 条有害请求拒绝率）	完整性
1 页分析报告（DPO 优势与局限、SimPO 效率对比）	分析深度
完整训练和评估代码	可复现性

实验：复现迷你 DeepSeek-R1-Zero

交付物	对应评分维度
训练奖励曲线图	完整性
5 个推理链示例（展示训练过程中的演化）	完整性
GSM8K 测试准确率四方对比表	完整性
1 页分析（是否观察到"推理涌现"、与蒸馏/SFT 的区别）	分析深度
完整代码（含奖励函数和训练配置）	可复现性

实验：量化实验 + 能力扩展选做

交付物	对应评分维度
三种精度的显存/速度/质量对比报告	完整性
选做实验（三选一）的分析报告	完整性
1 页总结（后训练各环节的关系与选择策略）	分析深度
完整代码和实验记录	可复现性

特殊情况：如因 GPU 资源不可用、身体原因等特殊情况无法按时完成，请提前与教师沟通申请延期。提前申请通常可以获得 2-3 天的宽限。

三、期末项目（40%）

期末项目分为**项目报告（20%）和课堂演示（20%）**两部分。

项目报告评分标准（20%）

维度	分值	优秀 (90-100%)	良好 (70-89%)	及格 (60-69%)	不及格 (<60%)
技术深度	8%	创新组合 2+ 技术，深入消融	正确使用 2 种技术，有基本消融	使用 2 种技术但缺乏分析	仅 1 种技术
实验质量	6%	多指标多基线，结果可复现	评估较全面，主要结果可复现	基本评估，部分缺失	评估不完整
报告撰写	6%	逻辑清晰、图表专业、有洞察	结构合理、内容完整	基本完整但浅	结构混乱

课堂演示评分标准（20%）

维度	分值	优秀 (90-100%)	良好 (70-89%)	及格 (60-69%)	不及格 (<60%)
展示效果	8%	Demo 流畅有说服力，对比清晰	Demo 基本流畅，有对比	Demo 勉强运行	无 Demo
表达清晰	6%	逻辑清晰、重点突出、控时好	表达较清楚	逻辑不清	混乱超时
回答质量	6%	有深入思考，回答准确	基本能回答	回答较浅	无法回答

加分项（最多 +5 分，加分后总分不超过 100）

加分项	分值	说明
创新性方法组合	+2	超出课程范围的技术尝试
高质量可视化	+1	专业的图表和训练曲线
深入的失败分析	+1	对失败实验的有价值反思
与前沿论文对比	+1	将结果与相关论文对比讨论
可复用代码/工具	+1	代码整理完善，他人可复用

学术诚信

禁止以下行为：

抄袭他人代码或报告（允许参考但必须注明来源并用自己的话重写）
提交 AI 生成的未经修改的实验报告（允许使用 AI 辅助编码和写作，但必须理解并能解释所有内容）
提交伪造的实验结果（如编造训练曲线或评估分数）
两组或多组提交高度雷同的报告

AI 工具使用政策

本课程鼓励合理使用 AI 工具（如 ChatGPT、Claude、GitHub Copilot），但有以下要求：

代码：可以使用 AI 辅助编写，但必须理解每一行代码的作用，在报告中说明哪些部分使用了 AI 辅助
报告：可以使用 AI 辅助润色语言，但核心分析和见解必须是自己的
演示 Q&A：回答问题时需要展示对代码和方法的真正理解

常见问题

Q: 实验做不完怎么办？

A: 每次实验都有"必做"和"选做"部分。完成所有必做部分即可获得基础分（约 7-8/10 分）。选做部分和深入分析是加分项。如果 GPU 资源或时间确实不足，请在报告中说明遇到的问题和尝试的解决方案——这本身也是有价值的分析。

Q: 期末项目可以用课程以外的模型吗？

A: 可以，但建议至少使用一个 Qwen3 系列模型作为基线对比。使用其他模型（如 Llama、Mistral）做额外实验是加分项。

Q: 小组成员贡献不均怎么办？

A: 项目报告中需明确说明每位成员的贡献。如果组内存在严重的贡献不均，教师可能会根据个人贡献调整个人成绩（浮动范围 +-10%）。

On this page