DEV Community

Cover image for DeepSeek V4 ローカル実行方法
Akira
Akira

Posted on • Originally published at apidog.com

DeepSeek V4 ローカル実行方法

DeepSeek V4が2026年4月23日にリリースされ、Hugging FaceでMITライセンスのウェイトが公開されました。MITライセンスの登場により、自社ハードウェアでAIを運用したい開発チームにとって、選択肢が大きく広がります。V4-Flash(計284Bパラメータ、アクティブ13B)はH100 2枚でFP8動作、V4-Pro(計1.6T、アクティブ49B)はクラスタ構成が必要ですが、GPT-5.5/Claude Opus 4.6と並ぶ性能を持ちます。

このガイドでは、ローカル自己ホストのセットアップ手順、必要なハードウェア構成、量子化(低メモリ化)、サービングエンジン(vLLM/SGLang)の導入方法、ツール連携、そしてApidogによるローカルサーバーのテストワークフローを具体的に解説します。

今すぐApidogを試す

製品概要は、DeepSeek V4とはをご覧ください。ホスト型APIの使い方は、DeepSeek V4 APIの利用方法を参照ください。コスト比較は、DeepSeek V4 APIの料金を確認してください。

要点(TL;DR)

  • V4-Flash: FP8ではH100 80GB×2枚、INT4ではH100×1枚で動作。FP8時のウェイトは約500GB。
  • V4-Pro: 本番運用にはFP8でH100 16台以上が必要。ラップトップ向けではありません。
  • vLLM: OpenAI互換サーバーを最速で構築可能。vllm>=0.9.0でV4対応済み。
  • SGLang: ツール利用・構造化出力重視のチーム向け。
  • 量子化(AWQ/GPTQ INT4): V4-Flashが80GBカード1枚で動作、品質低下は約5%以内。
  • Apidoghttp://localhost:8000/v1に接続、ホスト型APIのコレクションをローカルでも再利用可能。

自己ホストを検討すべきチーム

  • コンプライアンス要件: 医療・金融・法務・防衛等、ネットワーク外にデータを出せない場合。MITライセンスで利用規約・越境制限なし。
  • 大規模・安定ワークロード: 月間2,000億トークン超でAPI利用料より専用ハードが経済的。
  • ファインチューニング・研究: 継続事前学習や独自適応用途。MITライセンスで商用再配布も可能。

自己ホストが不要なケース: プロトタイピング、小規模(月200ドル以内)、GPU運用経験なし。こうした場合は運用コストが割高になります。

ハードウェア要件

DeepSeek V4はFP4+FP8混合精度。単純なパラメータ数よりもメモリ消費は抑制されています。

バリアント 総パラメータ数 アクティブパラメータ FP8 VRAM INT4 VRAM 最小カード構成
V4-Flash 284B 13B ~500GB ~140GB H100 80GB×2(FP8)/ H100×1(INT4)
V4-Pro 1.6T 49B ~2.4TB ~700GB H100 80GB×16(FP8)/ H100×8(INT4)

補足:

  • MoEの「アクティブ」は計算コストのみ。全エキスパート分のVRAMが必要。
  • H200/MI300XはVRAM容量によってカード枚数を削減可能。
  • RTX/GeForce等のコンシューマGPUは非推奨(要件を満たさない)。
  • Apple Siliconは開発・検証用途のみ、運用には不向き。

ステップ1:ウェイトをダウンロードする

公式リポジトリ:

CLIでダウンロード:

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False
Enter fullscreen mode Exit fullscreen mode
  • V4-Flash:約500GB、V4-Pro:数TBの空き容量が必要です。
  • ModelScope(modelscope.cn)は中国ユーザー向けミラー。

ステップ2:サービングエンジンを選択する

  • vLLM…最高のスループット、OpenAI互換API、最大コミュニティ。ほとんどの用途で推奨。
  • SGLang…ツール利用・構造化出力・長文コンテキスト用途。関数呼び出し依存ワークロード向け。

どちらも最新バージョンでV4対応済み。

ステップ3:vLLMでV4-Flashをサーブする

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000
Enter fullscreen mode Exit fullscreen mode
  • --tensor-parallel-size 2: H100 2枚で分割。カード枚数に応じて調整。
  • --max-model-len 1048576: 1Mトークンコンテキスト。不要なら短縮してVRAM節約。
  • --enable-prefix-caching: プレフィックスキャッシュ有効化。
  • --dtype auto: FP8混合精度を自動設定。

OpenAI互換クライアントでhttp://localhost:8000/v1へアクセス可能。

ステップ4:vLLMでV4-Proをサーブする

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000
Enter fullscreen mode Exit fullscreen mode
  • 例:H100 16枚構成。max-model-lenはVRAMに応じて調整。
  • テンソル並列・パイプライン並列の組み合わせでクラスタ運用。

ステップ5:SGLangでサーブする(ツール利用強化)

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000
Enter fullscreen mode Exit fullscreen mode
  • http://localhost:30000/v1でOpenAI互換API公開。
  • SGLangのlang DSLは関数呼び出しやJSON出力で優位。

ステップ6:シングルGPU向けに量子化する

INT4量子化でV4-FlashをH100 80GB×1枚で運用可能。品質低下は5%以内。

AWQ(推奨)

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
Enter fullscreen mode Exit fullscreen mode

GPTQ

pip install auto-gptq
# GPTQ量子化のレシピを参照。AWQ同様の手順。
Enter fullscreen mode Exit fullscreen mode
  • 量子化済みチェックポイントはvLLM起動時に--quantization awq/gptq指定。

ステップ7:Apidogでテストする

本番トラフィック投入前にローカルサーバーを検証しましょう。

Apidogの画面例

  1. Apidogをインストール。
  2. http://localhost:8000/v1/chat/completions を指すAPIコレクションを作成。
  3. ホスト型APIで使っているテストプロンプトを貼り付け、応答を比較。
  4. 50万トークンのコンテキスト投入でKVキャッシュ挙動を確認。
  5. エージェントループ接続前にツール呼び出しフローをE2E検証。

ホスト型API用コレクションは、Base URLの切り替えのみでローカルにも流用できます。

可観測性と監視

運用開始時点から最低限以下の4メトリクスを追跡:

  1. 1秒あたりトークン数(プロンプト・生成両方)。vLLMはPrometheus形式で/metricsに出力。
  2. GPU利用率nvidia-smi/DCGM)。70%未満はバッチサイズの最適化不足。
  3. KVキャッシュヒット率--enable-prefix-caching利用時に取得可)。
  4. リクエストレイテンシ(p50/p95/p99)。p99が高い場合は一部リクエスト形状がボトルネック。

これらはGrafana等の監視基盤へ連携推奨。

V4ベースチェックポイントのファインチューニング

ベースモデルは継続事前学習やSFT用途。LoRAアダプタによるSFT例:

pip install "torch>=2.6" transformers accelerate peft trl

python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128
Enter fullscreen mode Exit fullscreen mode

V4-Proのフルファインチューニングは研究用途。大半のチームはV4-Flash-Base+LoRAで十分実用的です。

よくある落とし穴

  1. OOM(メモリ不足): --max-model-lenがVRAMに対して過大、または並列値が低すぎる。コンテキスト短縮or並列度UPで対応。
  2. 初回リクエストが遅い: vLLMはカーネル遅延コンパイル。ウォームアップリクエストで解消。
  3. ツール利用時のパースエラー: DeepSeekのエンコーディングはOpenAIと異なる場合あり。SDKバージョン固定推奨。
  4. 古いGPUでFP8エラー: A100はFP8非対応。BF16運用時はVRAM消費増加に注意。

自己ホストが採算が取れる時

料金情報に基づく概算:

  • V4-Flash:月間2000億入力+200億出力トークン
    • ホスト型API:約33,600ドル
    • H100×8レンタル:約20,000ドル→自己ホストが40%有利
  • V4-Pro:月間5000億入力+500億出力トークン
    • ホスト型API:約104万ドル
    • H100×16クラスタ:約35,000ドル→自己ホストが95%以上有利

V4-Flashは月間1000億トークン超が損益分岐点。それ以下はAPI利用が推奨。

よくある質問

Q: V4-FlashはA100で動く?

A: 強い量子化+短コンテキストで可能。ただし遅い(INT4で5~15トークン/秒)。本来はH100推奨。

Q: LoRAファインチューニング対応?

A: 対応。ベースチェックポイント+TRL/Axolotl等標準パイプラインでOK。MoEルーティングは影響なし。

Q: ローカルサーバーはOpenAI互換?

A: vLLM/SGLangとも/v1/chat/completionsなどOpenAI互換APIを提供。APIガイドもlocalhostで利用可能。

Q: ローカルで思考モード有効化は?

A: リクエストボディにthinking_mode: "thinking"または"thinking_max"を指定。vLLM/SGLangで対応。

Q: ストリーミング出力対応?

A: stream: trueを指定すればOpenAI/ホストAPI同様に対応。

Q: 機材購入前に安価に試す方法は?

A: RunPodやLambdaでH100を時間単位レンタルし、INT4でV4-Flashをテスト。10~30ドル程度で現実的なスループットを実測可能。

Top comments (0)