LLM 后训练实践
课程资源

GPU 配置与费用估算

各课次 GPU 配置推荐、AutoDL 费用明细、省钱技巧与替代平台

GPU 配置等级

根据实验需求和预算,可以选择不同的 GPU 配置:

配置等级GPU 要求适用模型方法典型课次
最低配置1x T4 16GBQwen3-0.6B / 1.7BQLoRA 4-bit第1-3课(降级版)
标准配置(推荐)1x A100-40GQwen3-1.7B / 4BLoRA 16-bit第1-3、5课
进阶配置1x A100-80GQwen3-8BLoRA 16-bit第4课(GRPO)
高级项目2x A100-80GQwen3-8B / 30B-A3B (MoE)GRPO + vLLM期末项目

各配置的显存使用估算

标准配置(A100-40G)下的显存占用

实验场景模型方法预计显存余量
SFT 训练(第1-2课)Qwen3-1.7BQLoRA 4-bit~8 GB充裕
SFT 训练(第1-2课)Qwen3-1.7BLoRA 16-bit~12 GB充裕
DPO 训练(第3课)Qwen3-1.7BQLoRA 4-bit~10 GB充裕
GRPO 训练(第4课)Qwen3-1.7B-BaseLoRA + G=8~35-38 GB紧张
GRPO 训练(第4课)Qwen3-0.6B-BaseLoRA + G=4~18 GB充裕
量化推理(第5课)Qwen3-8BFP16~20 GB可行
量化推理(第5课)Qwen3-8BINT4~6 GB充裕

显存经验法则

  • 推理显存2×参数量(B)×精度(bytes)\text{显存} \approx 2 \times \text{参数量(B)} \times \text{精度(bytes)}
  • SFT(QLoRA)显存模型权重+LoRA 参数+梯度+优化器状态1.5x2x 推理显存\text{显存} \approx \text{模型权重} + \text{LoRA 参数} + \text{梯度} + \text{优化器状态} \approx 1.5\text{x} \sim 2\text{x 推理显存}
  • GRPO:需额外内存用于 GG 个生成,显存2x3x 推理显存\text{显存} \approx 2\text{x} \sim 3\text{x 推理显存}

AutoDL 费用明细

单价参考(2026 年初价格,可能有波动)

GPU 型号显存按量计费(元/小时)包日价(元/天)
Tesla T416 GB~1.00~15
RTX 409024 GB~2.00~30
A100-40G40 GB~3.45~55
A100-80G80 GB~6.80~100
2x A100-80G160 GB~13.60~200

各课次费用估算(A100-40G 标准配置)

课次实验内容预计 GPU 时间费用(A100-40G)备注
第1课SFT 基础微调2.5 小时~9 元QLoRA 训练 + 推理对比
第2课SFT 进阶 + 消融2.5 小时~9 元多次训练 + 评估
第3课DPO + SimPO 对比2.5 小时~9 元两次对齐训练 + 评估
第4课GRPO 推理训练4.0 小时~27 元建议 A100-80G
第5课量化 + 选做2.5 小时~9 元多精度加载 + 评估
课后补做补实验、调参~5 小时~17 元视个人情况
期末项目综合项目~5 小时~17 元视项目难度
合计~24 小时~97 元标准情况

第4课特殊说明:GRPO 训练是计算量最大的实验。建议使用 A100-80G(~6.80 元/小时 x 4 小时 = ~27 元)。如果使用 A100-40G,需要将模型降级为 Qwen3-0.6B 并减少 num_generations

总费用估算

方案GPU 选择学期总费用说明
经济方案全部 A100-40G(第4课用 0.6B)~97 元第4课效果略打折扣
推荐方案A100-40G + 第4课 A100-80G~113 元最佳性价比
进阶方案全部 A100-80G~163 元适合追求最佳效果的同学
最低方案全部 T4 (Colab Pro)~75 元/月部分实验需降级

省钱技巧

核心原则:用完即关

最大的费用浪费:忘记关机!A100-40G 每小时 3.45 元,如果忘记关机过夜(8 小时),白白浪费约 28 元。请务必设置关机提醒!

具体建议

实验前:计划好实验内容

在开机前,先在本地(不需要 GPU)完成:

  • 代码编写和调试(使用 CPU 测试小样本)
  • 数据预处理和格式化
  • 实验方案设计
  • 报告撰写

只有需要 GPU 训练/推理时才开机。

实验中:高效利用时间

  • 预先准备好所有代码,开机后直接运行
  • 使用 tmuxscreen 保持训练进程,避免断连后重跑
  • 如果训练时间长(>1 小时),可以先关闭 JupyterLab 连接,训练仍在后台运行

实验后:立即关机

  • 训练完成后立即保存结果和模型
  • 下载重要文件到本地或 Google Drive
  • 立即关机——AutoDL 关机不计费但保留数据盘

模型缓存:避免重复下载

  • 将模型存放在数据盘(/root/autodl-fs/),关机后仍然保留
  • 使用 HF_HOME 环境变量指向数据盘
  • 下次开机直接使用缓存的模型

关机提醒设置

# 在训练脚本末尾添加关机提醒
import subprocess
import time

# 方法1:训练完成后自动关机(AutoDL 支持)
# subprocess.run(["shutdown", "-h", "now"])  # 取消注释以启用

# 方法2:训练完成后发送提醒
print("\n" + "="*50)
print("训练已完成!请记得关机!")
print("当前时间:", time.strftime("%Y-%m-%d %H:%M:%S"))
print("="*50)

# 方法3:设置手机闹钟提醒自己

替代平台

如果 AutoDL 不可用,以下平台也可考虑:

平台GPU 选项价格优点缺点
Google Colab ProT4 / A100~75 元/月简单易用显存限制、会话时间限制
恒源云A100/V100~3-4 元/小时国内平台、速度快机器可用性不稳定
矩池云A100/V100~3-5 元/小时价格灵活需适应界面
Lambda LabsA100/H100~$1.1/小时国际平台、稳定需要 Visa 卡
RunPodA100/H100~$1.0/小时按需计费需要国际支付

各课次 GPU 使用时间线

以下是推荐的 GPU 使用时间规划(以 A100-40G 为例):

时间操作是否需要 GPU
课前阅读讲义、理解实验目标
课前编写实验代码、调试逻辑否(CPU 即可)
实验开始开机,加载模型
训练阶段运行 SFT/DPO/GRPO 训练
评估阶段推理 + 评估
实验结束保存结果,关机
课后分析结果、撰写报告
课后制作图表、整理代码

经验总结:大部分同学的实际 GPU 使用时间约为上课时间的 60-70%。提前准备好代码可以显著减少 GPU 使用时间和费用。