课程资源
GPU 配置与费用估算
各课次 GPU 配置推荐、AutoDL 费用明细、省钱技巧与替代平台
GPU 配置等级
根据实验需求和预算,可以选择不同的 GPU 配置:
| 配置等级 | GPU 要求 | 适用模型 | 方法 | 典型课次 |
|---|---|---|---|---|
| 最低配置 | 1x T4 16GB | Qwen3-0.6B / 1.7B | QLoRA 4-bit | 第1-3课(降级版) |
| 标准配置(推荐) | 1x A100-40G | Qwen3-1.7B / 4B | LoRA 16-bit | 第1-3、5课 |
| 进阶配置 | 1x A100-80G | Qwen3-8B | LoRA 16-bit | 第4课(GRPO) |
| 高级项目 | 2x A100-80G | Qwen3-8B / 30B-A3B (MoE) | GRPO + vLLM | 期末项目 |
各配置的显存使用估算
标准配置(A100-40G)下的显存占用:
| 实验场景 | 模型 | 方法 | 预计显存 | 余量 |
|---|---|---|---|---|
| SFT 训练(第1-2课) | Qwen3-1.7B | QLoRA 4-bit | ~8 GB | 充裕 |
| SFT 训练(第1-2课) | Qwen3-1.7B | LoRA 16-bit | ~12 GB | 充裕 |
| DPO 训练(第3课) | Qwen3-1.7B | QLoRA 4-bit | ~10 GB | 充裕 |
| GRPO 训练(第4课) | Qwen3-1.7B-Base | LoRA + G=8 | ~35-38 GB | 紧张 |
| GRPO 训练(第4课) | Qwen3-0.6B-Base | LoRA + G=4 | ~18 GB | 充裕 |
| 量化推理(第5课) | Qwen3-8B | FP16 | ~20 GB | 可行 |
| 量化推理(第5课) | Qwen3-8B | INT4 | ~6 GB | 充裕 |
显存经验法则:
- 推理:
- SFT(QLoRA):
- GRPO:需额外内存用于 个生成,
AutoDL 费用明细
单价参考(2026 年初价格,可能有波动)
| GPU 型号 | 显存 | 按量计费(元/小时) | 包日价(元/天) |
|---|---|---|---|
| Tesla T4 | 16 GB | ~1.00 | ~15 |
| RTX 4090 | 24 GB | ~2.00 | ~30 |
| A100-40G | 40 GB | ~3.45 | ~55 |
| A100-80G | 80 GB | ~6.80 | ~100 |
| 2x A100-80G | 160 GB | ~13.60 | ~200 |
各课次费用估算(A100-40G 标准配置)
| 课次 | 实验内容 | 预计 GPU 时间 | 费用(A100-40G) | 备注 |
|---|---|---|---|---|
| 第1课 | SFT 基础微调 | 2.5 小时 | ~9 元 | QLoRA 训练 + 推理对比 |
| 第2课 | SFT 进阶 + 消融 | 2.5 小时 | ~9 元 | 多次训练 + 评估 |
| 第3课 | DPO + SimPO 对比 | 2.5 小时 | ~9 元 | 两次对齐训练 + 评估 |
| 第4课 | GRPO 推理训练 | 4.0 小时 | ~27 元 | 建议 A100-80G |
| 第5课 | 量化 + 选做 | 2.5 小时 | ~9 元 | 多精度加载 + 评估 |
| 课后补做 | 补实验、调参 | ~5 小时 | ~17 元 | 视个人情况 |
| 期末项目 | 综合项目 | ~5 小时 | ~17 元 | 视项目难度 |
| 合计 | — | ~24 小时 | ~97 元 | 标准情况 |
第4课特殊说明:GRPO 训练是计算量最大的实验。建议使用 A100-80G(~6.80 元/小时 x 4 小时 = ~27 元)。如果使用 A100-40G,需要将模型降级为 Qwen3-0.6B 并减少 num_generations。
总费用估算
| 方案 | GPU 选择 | 学期总费用 | 说明 |
|---|---|---|---|
| 经济方案 | 全部 A100-40G(第4课用 0.6B) | ~97 元 | 第4课效果略打折扣 |
| 推荐方案 | A100-40G + 第4课 A100-80G | ~113 元 | 最佳性价比 |
| 进阶方案 | 全部 A100-80G | ~163 元 | 适合追求最佳效果的同学 |
| 最低方案 | 全部 T4 (Colab Pro) | ~75 元/月 | 部分实验需降级 |
省钱技巧
核心原则:用完即关
最大的费用浪费:忘记关机!A100-40G 每小时 3.45 元,如果忘记关机过夜(8 小时),白白浪费约 28 元。请务必设置关机提醒!
具体建议
实验前:计划好实验内容
在开机前,先在本地(不需要 GPU)完成:
- 代码编写和调试(使用 CPU 测试小样本)
- 数据预处理和格式化
- 实验方案设计
- 报告撰写
只有需要 GPU 训练/推理时才开机。
实验中:高效利用时间
- 预先准备好所有代码,开机后直接运行
- 使用
tmux或screen保持训练进程,避免断连后重跑 - 如果训练时间长(>1 小时),可以先关闭 JupyterLab 连接,训练仍在后台运行
实验后:立即关机
- 训练完成后立即保存结果和模型
- 下载重要文件到本地或 Google Drive
- 立即关机——AutoDL 关机不计费但保留数据盘
模型缓存:避免重复下载
- 将模型存放在数据盘(
/root/autodl-fs/),关机后仍然保留 - 使用
HF_HOME环境变量指向数据盘 - 下次开机直接使用缓存的模型
关机提醒设置
# 在训练脚本末尾添加关机提醒
import subprocess
import time
# 方法1:训练完成后自动关机(AutoDL 支持)
# subprocess.run(["shutdown", "-h", "now"]) # 取消注释以启用
# 方法2:训练完成后发送提醒
print("\n" + "="*50)
print("训练已完成!请记得关机!")
print("当前时间:", time.strftime("%Y-%m-%d %H:%M:%S"))
print("="*50)
# 方法3:设置手机闹钟提醒自己替代平台
如果 AutoDL 不可用,以下平台也可考虑:
| 平台 | GPU 选项 | 价格 | 优点 | 缺点 |
|---|---|---|---|---|
| Google Colab Pro | T4 / A100 | ~75 元/月 | 简单易用 | 显存限制、会话时间限制 |
| 恒源云 | A100/V100 | ~3-4 元/小时 | 国内平台、速度快 | 机器可用性不稳定 |
| 矩池云 | A100/V100 | ~3-5 元/小时 | 价格灵活 | 需适应界面 |
| Lambda Labs | A100/H100 | ~$1.1/小时 | 国际平台、稳定 | 需要 Visa 卡 |
| RunPod | A100/H100 | ~$1.0/小时 | 按需计费 | 需要国际支付 |
各课次 GPU 使用时间线
以下是推荐的 GPU 使用时间规划(以 A100-40G 为例):
| 时间 | 操作 | 是否需要 GPU |
|---|---|---|
| 课前 | 阅读讲义、理解实验目标 | 否 |
| 课前 | 编写实验代码、调试逻辑 | 否(CPU 即可) |
| 实验开始 | 开机,加载模型 | 是 |
| 训练阶段 | 运行 SFT/DPO/GRPO 训练 | 是 |
| 评估阶段 | 推理 + 评估 | 是 |
| 实验结束 | 保存结果,关机 | 否 |
| 课后 | 分析结果、撰写报告 | 否 |
| 课后 | 制作图表、整理代码 | 否 |
经验总结:大部分同学的实际 GPU 使用时间约为上课时间的 60-70%。提前准备好代码可以显著减少 GPU 使用时间和费用。