Akira

Posted on Apr 24 • Originally published at apidog.com

DeepSeek V4 ローカル実行方法

DeepSeek V4が2026年4月23日にリリースされ、Hugging FaceでMITライセンスのウェイトが公開されました。MITライセンスの登場により、自社ハードウェアでAIを運用したい開発チームにとって、選択肢が大きく広がります。V4-Flash（計284Bパラメータ、アクティブ13B）はH100 2枚でFP8動作、V4-Pro（計1.6T、アクティブ49B）はクラスタ構成が必要ですが、GPT-5.5/Claude Opus 4.6と並ぶ性能を持ちます。

このガイドでは、ローカル自己ホストのセットアップ手順、必要なハードウェア構成、量子化（低メモリ化）、サービングエンジン（vLLM/SGLang）の導入方法、ツール連携、そしてApidogによるローカルサーバーのテストワークフローを具体的に解説します。

今すぐApidogを試す

製品概要は、DeepSeek V4とはをご覧ください。ホスト型APIの使い方は、DeepSeek V4 APIの利用方法を参照ください。コスト比較は、DeepSeek V4 APIの料金を確認してください。

要点（TL;DR）

V4-Flash: FP8ではH100 80GB×2枚、INT4ではH100×1枚で動作。FP8時のウェイトは約500GB。
V4-Pro: 本番運用にはFP8でH100 16台以上が必要。ラップトップ向けではありません。
vLLM: OpenAI互換サーバーを最速で構築可能。vllm>=0.9.0でV4対応済み。
SGLang: ツール利用・構造化出力重視のチーム向け。
量子化（AWQ/GPTQ INT4）: V4-Flashが80GBカード1枚で動作、品質低下は約5%以内。
Apidogでhttp://localhost:8000/v1に接続、ホスト型APIのコレクションをローカルでも再利用可能。

自己ホストを検討すべきチーム

コンプライアンス要件: 医療・金融・法務・防衛等、ネットワーク外にデータを出せない場合。MITライセンスで利用規約・越境制限なし。
大規模・安定ワークロード: 月間2,000億トークン超でAPI利用料より専用ハードが経済的。
ファインチューニング・研究: 継続事前学習や独自適応用途。MITライセンスで商用再配布も可能。

自己ホストが不要なケース: プロトタイピング、小規模（月200ドル以内）、GPU運用経験なし。こうした場合は運用コストが割高になります。

ハードウェア要件

DeepSeek V4はFP4+FP8混合精度。単純なパラメータ数よりもメモリ消費は抑制されています。

バリアント	総パラメータ数	アクティブパラメータ	FP8 VRAM	INT4 VRAM	最小カード構成
V4-Flash	284B	13B	~500GB	~140GB	H100 80GB×2（FP8）/ H100×1（INT4)
V4-Pro	1.6T	49B	~2.4TB	~700GB	H100 80GB×16（FP8）/ H100×8（INT4)

補足:

MoEの「アクティブ」は計算コストのみ。全エキスパート分のVRAMが必要。
H200/MI300XはVRAM容量によってカード枚数を削減可能。
RTX/GeForce等のコンシューマGPUは非推奨（要件を満たさない）。
Apple Siliconは開発・検証用途のみ、運用には不向き。

ステップ1：ウェイトをダウンロードする

公式リポジトリ：

deepseek-ai/DeepSeek-V4-Flash
deepseek-ai/DeepSeek-V4-Pro
ファインチューニング用：deepseek-ai/DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base

CLIでダウンロード：

pip install -U "huggingface_hub[cli]"
huggingface-cli login

huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

V4-Flash：約500GB、V4-Pro：数TBの空き容量が必要です。
ModelScope（modelscope.cn）は中国ユーザー向けミラー。

ステップ2：サービングエンジンを選択する

vLLM…最高のスループット、OpenAI互換API、最大コミュニティ。ほとんどの用途で推奨。
SGLang…ツール利用・構造化出力・長文コンテキスト用途。関数呼び出し依存ワークロード向け。

どちらも最新バージョンでV4対応済み。

ステップ3：vLLMでV4-Flashをサーブする

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 2 \
  --max-model-len 1048576 \
  --dtype auto \
  --enable-prefix-caching \
  --port 8000

--tensor-parallel-size 2: H100 2枚で分割。カード枚数に応じて調整。
--max-model-len 1048576: 1Mトークンコンテキスト。不要なら短縮してVRAM節約。
--enable-prefix-caching: プレフィックスキャッシュ有効化。
--dtype auto: FP8混合精度を自動設定。

OpenAI互換クライアントでhttp://localhost:8000/v1へアクセス可能。

ステップ4：vLLMでV4-Proをサーブする

vllm serve deepseek-ai/DeepSeek-V4-Pro \
  --tensor-parallel-size 8 \
  --pipeline-parallel-size 2 \
  --max-model-len 524288 \
  --enable-prefix-caching \
  --port 8000

例：H100 16枚構成。max-model-lenはVRAMに応じて調整。
テンソル並列・パイプライン並列の組み合わせでクラスタ運用。

ステップ5：SGLangでサーブする（ツール利用強化）

pip install "sglang[all]>=0.4.0"

python -m sglang.launch_server \
  --model-path deepseek-ai/DeepSeek-V4-Flash \
  --tp 2 \
  --context-length 1048576 \
  --port 30000

http://localhost:30000/v1でOpenAI互換API公開。
SGLangのlang DSLは関数呼び出しやJSON出力で優位。

ステップ6：シングルGPU向けに量子化する

INT4量子化でV4-FlashをH100 80GB×1枚で運用可能。品質低下は5%以内。

AWQ（推奨）

pip install autoawq

python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"

GPTQ

pip install auto-gptq
# GPTQ量子化のレシピを参照。AWQ同様の手順。

量子化済みチェックポイントはvLLM起動時に--quantization awq/gptq指定。

ステップ7：Apidogでテストする

本番トラフィック投入前にローカルサーバーを検証しましょう。

Apidogをインストール。
http://localhost:8000/v1/chat/completions を指すAPIコレクションを作成。
ホスト型APIで使っているテストプロンプトを貼り付け、応答を比較。
50万トークンのコンテキスト投入でKVキャッシュ挙動を確認。
エージェントループ接続前にツール呼び出しフローをE2E検証。

ホスト型API用コレクションは、Base URLの切り替えのみでローカルにも流用できます。

可観測性と監視

運用開始時点から最低限以下の4メトリクスを追跡：

1秒あたりトークン数（プロンプト・生成両方）。vLLMはPrometheus形式で/metricsに出力。
GPU利用率（nvidia-smi/DCGM）。70%未満はバッチサイズの最適化不足。
KVキャッシュヒット率（--enable-prefix-caching利用時に取得可）。
リクエストレイテンシ（p50/p95/p99）。p99が高い場合は一部リクエスト形状がボトルネック。

これらはGrafana等の監視基盤へ連携推奨。

V4ベースチェックポイントのファインチューニング

ベースモデルは継続事前学習やSFT用途。LoRAアダプタによるSFT例：

pip install "torch>=2.6" transformers accelerate peft trl

python -m trl sft \
  --model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
  --dataset_name your-org/your-sft-set \
  --output_dir ./models/v4-flash-custom \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 16 \
  --learning_rate 2e-5 \
  --bf16 true \
  --use_peft true \
  --lora_r 64 \
  --lora_alpha 128

V4-Proのフルファインチューニングは研究用途。大半のチームはV4-Flash-Base＋LoRAで十分実用的です。

よくある落とし穴

OOM（メモリ不足）: --max-model-lenがVRAMに対して過大、または並列値が低すぎる。コンテキスト短縮or並列度UPで対応。
初回リクエストが遅い: vLLMはカーネル遅延コンパイル。ウォームアップリクエストで解消。
ツール利用時のパースエラー: DeepSeekのエンコーディングはOpenAIと異なる場合あり。SDKバージョン固定推奨。
古いGPUでFP8エラー: A100はFP8非対応。BF16運用時はVRAM消費増加に注意。

自己ホストが採算が取れる時

料金情報に基づく概算：

V4-Flash：月間2000億入力+200億出力トークン
- ホスト型API：約33,600ドル
- H100×8レンタル：約20,000ドル→自己ホストが40%有利
V4-Pro：月間5000億入力+500億出力トークン
- ホスト型API：約104万ドル
- H100×16クラスタ：約35,000ドル→自己ホストが95%以上有利

V4-Flashは月間1000億トークン超が損益分岐点。それ以下はAPI利用が推奨。

よくある質問

Q: V4-FlashはA100で動く？

A: 強い量子化＋短コンテキストで可能。ただし遅い（INT4で5～15トークン/秒）。本来はH100推奨。

Q: LoRAファインチューニング対応？

A: 対応。ベースチェックポイント＋TRL/Axolotl等標準パイプラインでOK。MoEルーティングは影響なし。

Q: ローカルサーバーはOpenAI互換？

A: vLLM/SGLangとも/v1/chat/completionsなどOpenAI互換APIを提供。APIガイドもlocalhostで利用可能。

Q: ローカルで思考モード有効化は？

A: リクエストボディにthinking_mode: "thinking"または"thinking_max"を指定。vLLM/SGLangで対応。

Q: ストリーミング出力対応？

A: stream: trueを指定すればOpenAI/ホストAPI同様に対応。

Q: 機材購入前に安価に試す方法は？

A: RunPodやLambdaでH100を時間単位レンタルし、INT4でV4-Flashをテスト。10～30ドル程度で現実的なスループットを実測可能。

DEV Community