【実体験】GPUクラウド比較：Runpod/Vast.ai/Lambdaで生成AIコストを1/3にする

#ai #aws

GPUクラウド比較：Runpod/Vast.ai/Lambdaで生成AIコストを1/3にする

結論

生成AIの学習・推論を回すなら、大手クラウド（AWS/GCP）のオンデマンドGPUは割高だ。同じ A100 80GB でも、Vast.ai のコミュニティ枠なら 1/3〜1/4 に下がる。優先順位はこうだ。

最安・短時間ジョブ → Vast.ai（相場 $0.6〜1.2/h・A100 80GB）
安定運用・本番推論 → Runpod Secure Cloud（$1.5〜2.0/h、永続ボリューム）
長期予約・マルチGPU学習 → Lambda（$1.29/h〜・H100クラスタ）

AWS の p4d（A100×8）はオンデマンド約 $32/h、按分すると 1GPU $4/h 超。Vast.ai に逃がすだけで実コストは 1/3 未満になる。

根拠：1時間あたり単価（A100 80GB、2026年時点の相場）

サービス	単価/h	課金単位	永続ストレージ	中断リスク
AWS p4d 按分	~$4.0	秒	EBS	低
Lambda On-Demand	$1.29〜	分	あり	低
Runpod Secure	$1.5〜2.0	秒	Network Volume	低
Runpod Community	$0.8〜1.3	秒	限定的	中
Vast.ai	$0.6〜1.2	秒	ホスト依存	中〜高

ポイントは課金が秒単位であること。起動・停止をスクリプト化し、アイドルを潰せば月額は劇的に下がる。100時間/月の推論なら、AWS換算 $400 → Vast.ai $90 前後だ。

手順1：Vast.ai を CLI で最安インスタンス起動

pip install vastai
vastai set api-key <YOUR_API_KEY>

# A100 80GB を $1.0/h 以下・帯域10Gbps以上で検索
vastai search offers \
  'gpu_name=A100_SXM4 num_gpus=1 dph<1.0 inet_down>10' \
  -o 'dph+'

# 出てきた ID で起動（PyTorchイメージ）
vastai create instance <OFFER_ID> \
  --image pytorch/pytorch:2.4.0-cuda12.4-cudnn9-runtime \
  --disk 60 --ssh

# 使い終わったら必ず破棄（ここを忘れると課金が続く）
vastai destroy instance <INSTANCE_ID>

手順2：Runpod を API で起動し永続ボリュームを付ける

本番推論はデータを残したいので Network Volume を紐付ける。

curl -s https://api.runpod.io/graphql?api_key=$RUNPOD_API_KEY \
  -H 'Content-Type: application/json' \
  -d '{"query":"mutation{podFindAndDeployOnDemand(input:{
        gpuTypeId:\"NVIDIA A100 80GB PCIe\",
        cloudType:SECURE, volumeInGb:50,
        containerDiskInGb:20, gpuCount:1,
        imageName:\"runpod/pytorch:2.4.0-py3.11-cuda12.4\"
      }){id}}"}'

手順3：コスト1/3を実現する3つの運用ルール

1. アイドル自動停止。学習完了後にインスタンスを殺す cron を仕込む。

# 30分GPU使用率0%なら自己破棄
*/5 * * * * [ $(nvidia-smi --query-gpu=utilization.gpu \
  --format=csv,noheader,nounits) -eq 0 ] && \
  echo idle >> /tmp/idle || rm -f /tmp/idle

2. Spot/中断対策はチェックポイント。Vast.ai は中断され得るので、学習は必ず保存しながら回す。

torch.save({"epoch": e, "model": model.state_dict()},
           "/workspace/ckpt.pt")  # /workspace を永続ボリュームに

3. リージョン・帯域でフィルタ。安くても帯域が細いとモデルDLで時間を溶かす。inet_down>10 を必ず付ける。データセットは S3 ではなく Cloudflare R2（egress無料） に置くと転送費もゼロになる。

まとめ

用途	推奨	期待削減
実験・短時間	Vast.ai	1/3〜1/4
本番推論	Runpod Secure	1/2
長期学習	Lambda予約	1/2〜1/3

秒課金 × 自動停止 × egress無料ストレージ。この3点を CLI で自動化すれば、生成AIの GPU コストは無理なく 1/3 に収まる。まず Vast.ai で vastai search を叩いて相場を体感するところから始めよう。

DEV Community