评分标准
课程考核方式、各项评分细则与评分标准详细说明
成绩构成
本课程为考查课,成绩由三部分组成:
| 考核项 | 比例 | 说明 |
|---|---|---|
| 考勤与课堂参与 | 10% | 出勤记录及课堂讨论参与度 |
| 课程实践(5 次实验报告) | 50% | 每次实验提交代码、训练日志和分析报告 |
| 期末项目 | 40% | 小组项目,含项目报告和课堂演示 |
总成绩 = 考勤(10%) + 实验报告(50%) + 期末项目(40%)
= 考勤(10%) + 5次实验(每次10%) + 报告(20%) + 演示(20%)一、考勤与课堂参与(10%)
评分方式
| 项目 | 分值 | 说明 |
|---|---|---|
| 出勤 | 6 分 | 每次课 1 分,共 6 次 |
| 课堂参与 | 4 分 | 提问、讨论、回答问题 |
课堂参与评估
| 等级 | 分数 | 标准 |
|---|---|---|
| 优秀 | 4 分 | 积极提问和讨论,回答有深度,能引发有价值的课堂讨论 |
| 良好 | 3 分 | 偶尔提问或参与讨论 |
| 一般 | 2 分 | 按时出勤但基本不参与讨论 |
| 较差 | 0-1 分 | 多次缺勤或完全不参与 |
鼓励方式:在课堂讨论中提出好问题、分享有价值的发现、帮助其他同学解决问题,都会获得课堂参与分数。不要求每次都发言,但鼓励积极参与。
二、课程实践——实验报告(50%)
总体要求
共 5 次实验报告(第 1-5 课各一次),每次 10%,合计 50%。
每次实验报告包含:
- 代码:完整可运行的实验代码
- 训练日志:训练损失曲线、显存使用、运行时间等
- 分析报告:1-2 页的书面分析
单次实验报告评分标准(满分 10 分)
| 维度 | 分值 | 评分标准 |
|---|---|---|
| 完整性 | 5 分 | 所有实验步骤是否全部完成 |
| 分析深度 | 3 分 | 对实验结果的分析是否有洞察 |
| 可复现性 | 2 分 | 代码和配置是否可以复现实验结果 |
完整性评分细则(5 分)
| 得分 | 标准 |
|---|---|
| 5 | 所有必做步骤全部完成,选做内容也有尝试 |
| 4 | 所有必做步骤完成,但某些环节缺少细节 |
| 3 | 完成大部分步骤(>70%),但有关键步骤遗漏 |
| 2 | 完成约一半步骤 |
| 1 | 仅完成少量步骤(<30%) |
| 0 | 未提交 |
分析深度评分细则(3 分)
| 得分 | 标准 |
|---|---|
| 3 | 分析有独到见解,能联系课程理论解释实验现象,提出有价值的改进建议 |
| 2 | 能正确描述实验结果并给出合理分析,但缺乏深度 |
| 1 | 仅罗列实验结果,缺乏分析 |
| 0 | 无分析或分析完全错误 |
可复现性评分细则(2 分)
| 得分 | 标准 |
|---|---|
| 2 | 代码清晰、有注释,超参数和环境信息完整,他人可直接复现 |
| 1 | 代码基本完整但缺少关键配置信息 |
| 0 | 代码不完整或无法运行 |
各课实验的具体交付物
实验:将 Qwen3-1.7B 微调为指令跟随助手
| 交付物 | 对应评分维度 |
|---|---|
| 训练损失曲线 | 完整性 |
| 10 条提示的基座/微调模型对比表 | 完整性 |
| 超参数实验结果(至少修改1个超参数) | 完整性 |
| 1 页书面分析(数据质量 vs 数量、LoRA 超参数影响) | 分析深度 |
| 完整代码(含注释和超参数记录) | 可复现性 |
实验:领域定制指令微调与系统评估
| 交付物 | 对应评分维度 |
|---|---|
| 数据分析报告(含分布图表) | 完整性 |
| LLM-as-Judge 评分对比表 | 完整性 |
| 消融实验结果(数据量/质量/LoRA秩,任选一) | 完整性 |
| 1 页关于"数据工程对 SFT 效果影响"的反思 | 分析深度 |
| 完整代码和数据处理脚本 | 可复现性 |
实验:DPO 对齐与 SimPO 对比
| 交付物 | 对应评分维度 |
|---|---|
| 胜率对比表(SFT vs DPO vs SimPO) | 完整性 |
| 训练损失和奖励边际曲线 | 完整性 |
| 安全测试结果(10 条有害请求拒绝率) | 完整性 |
| 1 页分析报告(DPO 优势与局限、SimPO 效率对比) | 分析深度 |
| 完整训练和评估代码 | 可复现性 |
实验:复现迷你 DeepSeek-R1-Zero
| 交付物 | 对应评分维度 |
|---|---|
| 训练奖励曲线图 | 完整性 |
| 5 个推理链示例(展示训练过程中的演化) | 完整性 |
| GSM8K 测试准确率四方对比表 | 完整性 |
| 1 页分析(是否观察到"推理涌现"、与蒸馏/SFT 的区别) | 分析深度 |
| 完整代码(含奖励函数和训练配置) | 可复现性 |
实验:量化实验 + 能力扩展选做
| 交付物 | 对应评分维度 |
|---|---|
| 三种精度的显存/速度/质量对比报告 | 完整性 |
| 选做实验(三选一)的分析报告 | 完整性 |
| 1 页总结(后训练各环节的关系与选择策略) | 分析深度 |
| 完整代码和实验记录 | 可复现性 |
特殊情况:如因 GPU 资源不可用、身体原因等特殊情况无法按时完成,请提前与教师沟通申请延期。提前申请通常可以获得 2-3 天的宽限。
三、期末项目(40%)
期末项目分为**项目报告(20%)和课堂演示(20%)**两部分。
项目报告评分标准(20%)
| 维度 | 分值 | 优秀 (90-100%) | 良好 (70-89%) | 及格 (60-69%) | 不及格 (<60%) |
|---|---|---|---|---|---|
| 技术深度 | 8% | 创新组合 2+ 技术,深入消融 | 正确使用 2 种技术,有基本消融 | 使用 2 种技术但缺乏分析 | 仅 1 种技术 |
| 实验质量 | 6% | 多指标多基线,结果可复现 | 评估较全面,主要结果可复现 | 基本评估,部分缺失 | 评估不完整 |
| 报告撰写 | 6% | 逻辑清晰、图表专业、有洞察 | 结构合理、内容完整 | 基本完整但浅 | 结构混乱 |
课堂演示评分标准(20%)
| 维度 | 分值 | 优秀 (90-100%) | 良好 (70-89%) | 及格 (60-69%) | 不及格 (<60%) |
|---|---|---|---|---|---|
| 展示效果 | 8% | Demo 流畅有说服力,对比清晰 | Demo 基本流畅,有对比 | Demo 勉强运行 | 无 Demo |
| 表达清晰 | 6% | 逻辑清晰、重点突出、控时好 | 表达较清楚 | 逻辑不清 | 混乱超时 |
| 回答质量 | 6% | 有深入思考,回答准确 | 基本能回答 | 回答较浅 | 无法回答 |
加分项(最多 +5 分,加分后总分不超过 100)
| 加分项 | 分值 | 说明 |
|---|---|---|
| 创新性方法组合 | +2 | 超出课程范围的技术尝试 |
| 高质量可视化 | +1 | 专业的图表和训练曲线 |
| 深入的失败分析 | +1 | 对失败实验的有价值反思 |
| 与前沿论文对比 | +1 | 将结果与相关论文对比讨论 |
| 可复用代码/工具 | +1 | 代码整理完善,他人可复用 |
学术诚信
禁止以下行为:
- 抄袭他人代码或报告(允许参考但必须注明来源并用自己的话重写)
- 提交 AI 生成的未经修改的实验报告(允许使用 AI 辅助编码和写作,但必须理解并能解释所有内容)
- 提交伪造的实验结果(如编造训练曲线或评估分数)
- 两组或多组提交高度雷同的报告
AI 工具使用政策
本课程鼓励合理使用 AI 工具(如 ChatGPT、Claude、GitHub Copilot),但有以下要求:
- 代码:可以使用 AI 辅助编写,但必须理解每一行代码的作用,在报告中说明哪些部分使用了 AI 辅助
- 报告:可以使用 AI 辅助润色语言,但核心分析和见解必须是自己的
- 演示 Q&A:回答问题时需要展示对代码和方法的真正理解
常见问题
Q: 实验做不完怎么办?
A: 每次实验都有"必做"和"选做"部分。完成所有必做部分即可获得基础分(约 7-8/10 分)。选做部分和深入分析是加分项。如果 GPU 资源或时间确实不足,请在报告中说明遇到的问题和尝试的解决方案——这本身也是有价值的分析。
Q: 期末项目可以用课程以外的模型吗?
A: 可以,但建议至少使用一个 Qwen3 系列模型作为基线对比。使用其他模型(如 Llama、Mistral)做额外实验是加分项。
Q: 小组成员贡献不均怎么办?
A: 项目报告中需明确说明每位成员的贡献。如果组内存在严重的贡献不均,教师可能会根据个人贡献调整个人成绩(浮动范围 +-10%)。