GPUクラウド比較:Runpod/Vast.ai/Lambdaで生成AIコストを1/3にする
結論
生成AIの学習・推論を回すなら、大手クラウド(AWS/GCP)のオンデマンドGPUは割高だ。同じ A100 80GB でも、Vast.ai のコミュニティ枠なら 1/3〜1/4 に下がる。優先順位はこうだ。
- 最安・短時間ジョブ → Vast.ai(相場 $0.6〜1.2/h・A100 80GB)
- 安定運用・本番推論 → Runpod Secure Cloud($1.5〜2.0/h、永続ボリューム)
- 長期予約・マルチGPU学習 → Lambda($1.29/h〜・H100クラスタ)
AWS の p4d(A100×8)はオンデマンド約 $32/h、按分すると 1GPU $4/h 超。Vast.ai に逃がすだけで実コストは 1/3 未満になる。
根拠:1時間あたり単価(A100 80GB、2026年時点の相場)
| サービス | 単価/h | 課金単位 | 永続ストレージ | 中断リスク |
|---|---|---|---|---|
| AWS p4d 按分 | ~$4.0 | 秒 | EBS | 低 |
| Lambda On-Demand | $1.29〜 | 分 | あり | 低 |
| Runpod Secure | $1.5〜2.0 | 秒 | Network Volume | 低 |
| Runpod Community | $0.8〜1.3 | 秒 | 限定的 | 中 |
| Vast.ai | $0.6〜1.2 | 秒 | ホスト依存 | 中〜高 |
ポイントは課金が秒単位であること。起動・停止をスクリプト化し、アイドルを潰せば月額は劇的に下がる。100時間/月の推論なら、AWS換算 $400 → Vast.ai $90 前後だ。
手順1:Vast.ai を CLI で最安インスタンス起動
pip install vastai
vastai set api-key <YOUR_API_KEY>
# A100 80GB を $1.0/h 以下・帯域10Gbps以上で検索
vastai search offers \
'gpu_name=A100_SXM4 num_gpus=1 dph<1.0 inet_down>10' \
-o 'dph+'
# 出てきた ID で起動(PyTorchイメージ)
vastai create instance <OFFER_ID> \
--image pytorch/pytorch:2.4.0-cuda12.4-cudnn9-runtime \
--disk 60 --ssh
# 使い終わったら必ず破棄(ここを忘れると課金が続く)
vastai destroy instance <INSTANCE_ID>
手順2:Runpod を API で起動し永続ボリュームを付ける
本番推論はデータを残したいので Network Volume を紐付ける。
curl -s https://api.runpod.io/graphql?api_key=$RUNPOD_API_KEY \
-H 'Content-Type: application/json' \
-d '{"query":"mutation{podFindAndDeployOnDemand(input:{
gpuTypeId:\"NVIDIA A100 80GB PCIe\",
cloudType:SECURE, volumeInGb:50,
containerDiskInGb:20, gpuCount:1,
imageName:\"runpod/pytorch:2.4.0-py3.11-cuda12.4\"
}){id}}"}'
手順3:コスト1/3を実現する3つの運用ルール
1. アイドル自動停止。学習完了後にインスタンスを殺す cron を仕込む。
# 30分GPU使用率0%なら自己破棄
*/5 * * * * [ $(nvidia-smi --query-gpu=utilization.gpu \
--format=csv,noheader,nounits) -eq 0 ] && \
echo idle >> /tmp/idle || rm -f /tmp/idle
2. Spot/中断対策はチェックポイント。Vast.ai は中断され得るので、学習は必ず保存しながら回す。
torch.save({"epoch": e, "model": model.state_dict()},
"/workspace/ckpt.pt") # /workspace を永続ボリュームに
3. リージョン・帯域でフィルタ。安くても帯域が細いとモデルDLで時間を溶かす。inet_down>10 を必ず付ける。データセットは S3 ではなく Cloudflare R2(egress無料) に置くと転送費もゼロになる。
まとめ
| 用途 | 推奨 | 期待削減 |
|---|---|---|
| 実験・短時間 | Vast.ai | 1/3〜1/4 |
| 本番推論 | Runpod Secure | 1/2 |
| 長期学習 | Lambda予約 | 1/2〜1/3 |
秒課金 × 自動停止 × egress無料ストレージ。この3点を CLI で自動化すれば、生成AIの GPU コストは無理なく 1/3 に収まる。まず Vast.ai で vastai search を叩いて相場を体感するところから始めよう。
関連リンク
※自社商品(プロモーションを含みます)。
Top comments (0)