DEV Community

スシロー
スシロー

Posted on

【実体験】GPUクラウド比較:Runpod/Vast.ai/Lambdaで生成AIコストを1/3にする

GPUクラウド比較:Runpod/Vast.ai/Lambdaで生成AIコストを1/3にする

結論

生成AIの学習・推論を回すなら、大手クラウド(AWS/GCP)のオンデマンドGPUは割高だ。同じ A100 80GB でも、Vast.ai のコミュニティ枠なら 1/3〜1/4 に下がる。優先順位はこうだ。

  • 最安・短時間ジョブ → Vast.ai(相場 $0.6〜1.2/h・A100 80GB)
  • 安定運用・本番推論 → Runpod Secure Cloud($1.5〜2.0/h、永続ボリューム)
  • 長期予約・マルチGPU学習 → Lambda($1.29/h〜・H100クラスタ)

AWS の p4d(A100×8)はオンデマンド約 $32/h、按分すると 1GPU $4/h 超。Vast.ai に逃がすだけで実コストは 1/3 未満になる。

根拠:1時間あたり単価(A100 80GB、2026年時点の相場)

サービス 単価/h 課金単位 永続ストレージ 中断リスク
AWS p4d 按分 ~$4.0 EBS
Lambda On-Demand $1.29〜 あり
Runpod Secure $1.5〜2.0 Network Volume
Runpod Community $0.8〜1.3 限定的
Vast.ai $0.6〜1.2 ホスト依存 中〜高

ポイントは課金が秒単位であること。起動・停止をスクリプト化し、アイドルを潰せば月額は劇的に下がる。100時間/月の推論なら、AWS換算 $400 → Vast.ai $90 前後だ。

手順1:Vast.ai を CLI で最安インスタンス起動

pip install vastai
vastai set api-key <YOUR_API_KEY>

# A100 80GB を $1.0/h 以下・帯域10Gbps以上で検索
vastai search offers \
  'gpu_name=A100_SXM4 num_gpus=1 dph<1.0 inet_down>10' \
  -o 'dph+'

# 出てきた ID で起動(PyTorchイメージ)
vastai create instance <OFFER_ID> \
  --image pytorch/pytorch:2.4.0-cuda12.4-cudnn9-runtime \
  --disk 60 --ssh

# 使い終わったら必ず破棄(ここを忘れると課金が続く)
vastai destroy instance <INSTANCE_ID>
Enter fullscreen mode Exit fullscreen mode

手順2:Runpod を API で起動し永続ボリュームを付ける

本番推論はデータを残したいので Network Volume を紐付ける。

curl -s https://api.runpod.io/graphql?api_key=$RUNPOD_API_KEY \
  -H 'Content-Type: application/json' \
  -d '{"query":"mutation{podFindAndDeployOnDemand(input:{
        gpuTypeId:\"NVIDIA A100 80GB PCIe\",
        cloudType:SECURE, volumeInGb:50,
        containerDiskInGb:20, gpuCount:1,
        imageName:\"runpod/pytorch:2.4.0-py3.11-cuda12.4\"
      }){id}}"}'
Enter fullscreen mode Exit fullscreen mode

手順3:コスト1/3を実現する3つの運用ルール

1. アイドル自動停止。学習完了後にインスタンスを殺す cron を仕込む。

# 30分GPU使用率0%なら自己破棄
*/5 * * * * [ $(nvidia-smi --query-gpu=utilization.gpu \
  --format=csv,noheader,nounits) -eq 0 ] && \
  echo idle >> /tmp/idle || rm -f /tmp/idle
Enter fullscreen mode Exit fullscreen mode

2. Spot/中断対策はチェックポイント。Vast.ai は中断され得るので、学習は必ず保存しながら回す。

torch.save({"epoch": e, "model": model.state_dict()},
           "/workspace/ckpt.pt")  # /workspace を永続ボリュームに
Enter fullscreen mode Exit fullscreen mode

3. リージョン・帯域でフィルタ。安くても帯域が細いとモデルDLで時間を溶かす。inet_down>10 を必ず付ける。データセットは S3 ではなく Cloudflare R2(egress無料) に置くと転送費もゼロになる。

まとめ

用途 推奨 期待削減
実験・短時間 Vast.ai 1/3〜1/4
本番推論 Runpod Secure 1/2
長期学習 Lambda予約 1/2〜1/3

秒課金 × 自動停止 × egress無料ストレージ。この3点を CLI で自動化すれば、生成AIの GPU コストは無理なく 1/3 に収まる。まず Vast.ai で vastai search を叩いて相場を体感するところから始めよう。


関連リンク

※自社商品(プロモーションを含みます)。

Top comments (0)