GPU 配置与费用估算

GPU 配置等级

根据实验需求和预算，可以选择不同的 GPU 配置：

配置等级	GPU 要求	适用模型	方法	典型课次
最低配置	1x T4 16GB	Qwen3-0.6B / 1.7B	QLoRA 4-bit	第1-3课（降级版）
标准配置（推荐）	1x A100-40G	Qwen3-1.7B / 4B	LoRA 16-bit	第1-3、5课
进阶配置	1x A100-80G	Qwen3-8B	LoRA 16-bit	第4课（GRPO）
高级项目	2x A100-80G	Qwen3-8B / 30B-A3B (MoE)	GRPO + vLLM	期末项目

各配置的显存使用估算

标准配置（A100-40G）下的显存占用：

实验场景	模型	方法	预计显存	余量
SFT 训练（第1-2课）	Qwen3-1.7B	QLoRA 4-bit	~8 GB	充裕
SFT 训练（第1-2课）	Qwen3-1.7B	LoRA 16-bit	~12 GB	充裕
DPO 训练（第3课）	Qwen3-1.7B	QLoRA 4-bit	~10 GB	充裕
GRPO 训练（第4课）	Qwen3-1.7B-Base	LoRA + G=8	~35-38 GB	紧张
GRPO 训练（第4课）	Qwen3-0.6B-Base	LoRA + G=4	~18 GB	充裕
量化推理（第5课）	Qwen3-8B	FP16	~20 GB	可行
量化推理（第5课）	Qwen3-8B	INT4	~6 GB	充裕

显存经验法则：

推理： $\text{显存} \approx 2 \times \text{参数量(B)} \times \text{精度(bytes)}$
SFT（QLoRA）： $\text{显存} \approx \text{模型权重} + \text{LoRA 参数} + \text{梯度} + \text{优化器状态} \approx 1.5\text{x} \sim 2\text{x 推理显存}$
GRPO：需额外内存用于 $G$ 个生成， $\text{显存} \approx 2\text{x} \sim 3\text{x 推理显存}$

AutoDL 费用明细

单价参考（2026 年初价格，可能有波动）

GPU 型号	显存	按量计费（元/小时）	包日价（元/天）
Tesla T4	16 GB	~1.00	~15
RTX 4090	24 GB	~2.00	~30
A100-40G	40 GB	~3.45	~55
A100-80G	80 GB	~6.80	~100
2x A100-80G	160 GB	~13.60	~200

各课次费用估算（A100-40G 标准配置）

课次	实验内容	预计 GPU 时间	费用（A100-40G）	备注
第1课	SFT 基础微调	2.5 小时	~9 元	QLoRA 训练 + 推理对比
第2课	SFT 进阶 + 消融	2.5 小时	~9 元	多次训练 + 评估
第3课	DPO + SimPO 对比	2.5 小时	~9 元	两次对齐训练 + 评估
第4课	GRPO 推理训练	4.0 小时	~27 元	建议 A100-80G
第5课	量化 + 选做	2.5 小时	~9 元	多精度加载 + 评估
课后补做	补实验、调参	~5 小时	~17 元	视个人情况
期末项目	综合项目	~5 小时	~17 元	视项目难度
合计	—	~24 小时	~97 元	标准情况

第4课特殊说明：GRPO 训练是计算量最大的实验。建议使用 A100-80G（~6.80 元/小时 x 4 小时 = ~27 元）。如果使用 A100-40G，需要将模型降级为 Qwen3-0.6B 并减少 num_generations。

总费用估算

方案	GPU 选择	学期总费用	说明
经济方案	全部 A100-40G（第4课用 0.6B）	~97 元	第4课效果略打折扣
推荐方案	A100-40G + 第4课 A100-80G	~113 元	最佳性价比
进阶方案	全部 A100-80G	~163 元	适合追求最佳效果的同学
最低方案	全部 T4 (Colab Pro)	~75 元/月	部分实验需降级

省钱技巧

核心原则：用完即关

最大的费用浪费：忘记关机！A100-40G 每小时 3.45 元，如果忘记关机过夜（8 小时），白白浪费约 28 元。请务必设置关机提醒！

具体建议

实验前：计划好实验内容

在开机前，先在本地（不需要 GPU）完成：

代码编写和调试（使用 CPU 测试小样本）
数据预处理和格式化
实验方案设计
报告撰写

只有需要 GPU 训练/推理时才开机。

实验中：高效利用时间

预先准备好所有代码，开机后直接运行
使用 tmux 或 screen 保持训练进程，避免断连后重跑
如果训练时间长（>1 小时），可以先关闭 JupyterLab 连接，训练仍在后台运行

实验后：立即关机

训练完成后立即保存结果和模型
下载重要文件到本地或 Google Drive
立即关机——AutoDL 关机不计费但保留数据盘

模型缓存：避免重复下载

将模型存放在数据盘（/root/autodl-fs/），关机后仍然保留
使用 HF_HOME 环境变量指向数据盘
下次开机直接使用缓存的模型

关机提醒设置

# 在训练脚本末尾添加关机提醒
import subprocess
import time

# 方法1：训练完成后自动关机（AutoDL 支持）
# subprocess.run(["shutdown", "-h", "now"])  # 取消注释以启用

# 方法2：训练完成后发送提醒
print("\n" + "="*50)
print("训练已完成！请记得关机！")
print("当前时间:", time.strftime("%Y-%m-%d %H:%M:%S"))
print("="*50)

# 方法3：设置手机闹钟提醒自己

替代平台

如果 AutoDL 不可用，以下平台也可考虑：

平台	GPU 选项	价格	优点	缺点
Google Colab Pro	T4 / A100	~75 元/月	简单易用	显存限制、会话时间限制
恒源云	A100/V100	~3-4 元/小时	国内平台、速度快	机器可用性不稳定
矩池云	A100/V100	~3-5 元/小时	价格灵活	需适应界面
Lambda Labs	A100/H100	~$1.1/小时	国际平台、稳定	需要 Visa 卡
RunPod	A100/H100	~$1.0/小时	按需计费	需要国际支付

各课次 GPU 使用时间线

以下是推荐的 GPU 使用时间规划（以 A100-40G 为例）：

时间	操作	是否需要 GPU
课前	阅读讲义、理解实验目标	否
课前	编写实验代码、调试逻辑	否（CPU 即可）
实验开始	开机，加载模型	是
训练阶段	运行 SFT/DPO/GRPO 训练	是
评估阶段	推理 + 评估	是
实验结束	保存结果，关机	否
课后	分析结果、撰写报告	否
课后	制作图表、整理代码	否

经验总结：大部分同学的实际 GPU 使用时间约为上课时间的 60-70%。提前准备好代码可以显著减少 GPU 使用时间和费用。

On this page