DeepSeek V4が2026年4月23日にリリースされ、Hugging FaceでMITライセンスのウェイトが公開されました。MITライセンスの登場により、自社ハードウェアでAIを運用したい開発チームにとって、選択肢が大きく広がります。V4-Flash(計284Bパラメータ、アクティブ13B)はH100 2枚でFP8動作、V4-Pro(計1.6T、アクティブ49B)はクラスタ構成が必要ですが、GPT-5.5/Claude Opus 4.6と並ぶ性能を持ちます。
このガイドでは、ローカル自己ホストのセットアップ手順、必要なハードウェア構成、量子化(低メモリ化)、サービングエンジン(vLLM/SGLang)の導入方法、ツール連携、そしてApidogによるローカルサーバーのテストワークフローを具体的に解説します。
製品概要は、DeepSeek V4とはをご覧ください。ホスト型APIの使い方は、DeepSeek V4 APIの利用方法を参照ください。コスト比較は、DeepSeek V4 APIの料金を確認してください。
要点(TL;DR)
- V4-Flash: FP8ではH100 80GB×2枚、INT4ではH100×1枚で動作。FP8時のウェイトは約500GB。
- V4-Pro: 本番運用にはFP8でH100 16台以上が必要。ラップトップ向けではありません。
-
vLLM: OpenAI互換サーバーを最速で構築可能。
vllm>=0.9.0でV4対応済み。 - SGLang: ツール利用・構造化出力重視のチーム向け。
- 量子化(AWQ/GPTQ INT4): V4-Flashが80GBカード1枚で動作、品質低下は約5%以内。
-
Apidogで
http://localhost:8000/v1に接続、ホスト型APIのコレクションをローカルでも再利用可能。
自己ホストを検討すべきチーム
- コンプライアンス要件: 医療・金融・法務・防衛等、ネットワーク外にデータを出せない場合。MITライセンスで利用規約・越境制限なし。
- 大規模・安定ワークロード: 月間2,000億トークン超でAPI利用料より専用ハードが経済的。
- ファインチューニング・研究: 継続事前学習や独自適応用途。MITライセンスで商用再配布も可能。
自己ホストが不要なケース: プロトタイピング、小規模(月200ドル以内)、GPU運用経験なし。こうした場合は運用コストが割高になります。
ハードウェア要件
DeepSeek V4はFP4+FP8混合精度。単純なパラメータ数よりもメモリ消費は抑制されています。
| バリアント | 総パラメータ数 | アクティブパラメータ | FP8 VRAM | INT4 VRAM | 最小カード構成 |
|---|---|---|---|---|---|
| V4-Flash | 284B | 13B | ~500GB | ~140GB | H100 80GB×2(FP8)/ H100×1(INT4) |
| V4-Pro | 1.6T | 49B | ~2.4TB | ~700GB | H100 80GB×16(FP8)/ H100×8(INT4) |
補足:
- MoEの「アクティブ」は計算コストのみ。全エキスパート分のVRAMが必要。
- H200/MI300XはVRAM容量によってカード枚数を削減可能。
- RTX/GeForce等のコンシューマGPUは非推奨(要件を満たさない)。
- Apple Siliconは開発・検証用途のみ、運用には不向き。
ステップ1:ウェイトをダウンロードする
公式リポジトリ:
deepseek-ai/DeepSeek-V4-Flashdeepseek-ai/DeepSeek-V4-Pro- ファインチューニング用:
deepseek-ai/DeepSeek-V4-Flash-Base、DeepSeek-V4-Pro-Base
CLIでダウンロード:
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
- V4-Flash:約500GB、V4-Pro:数TBの空き容量が必要です。
- ModelScope(modelscope.cn)は中国ユーザー向けミラー。
ステップ2:サービングエンジンを選択する
- vLLM…最高のスループット、OpenAI互換API、最大コミュニティ。ほとんどの用途で推奨。
- SGLang…ツール利用・構造化出力・長文コンテキスト用途。関数呼び出し依存ワークロード向け。
どちらも最新バージョンでV4対応済み。
ステップ3:vLLMでV4-Flashをサーブする
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 2 \
--max-model-len 1048576 \
--dtype auto \
--enable-prefix-caching \
--port 8000
-
--tensor-parallel-size 2: H100 2枚で分割。カード枚数に応じて調整。 -
--max-model-len 1048576: 1Mトークンコンテキスト。不要なら短縮してVRAM節約。 -
--enable-prefix-caching: プレフィックスキャッシュ有効化。 -
--dtype auto: FP8混合精度を自動設定。
OpenAI互換クライアントでhttp://localhost:8000/v1へアクセス可能。
ステップ4:vLLMでV4-Proをサーブする
vllm serve deepseek-ai/DeepSeek-V4-Pro \
--tensor-parallel-size 8 \
--pipeline-parallel-size 2 \
--max-model-len 524288 \
--enable-prefix-caching \
--port 8000
- 例:H100 16枚構成。
max-model-lenはVRAMに応じて調整。 - テンソル並列・パイプライン並列の組み合わせでクラスタ運用。
ステップ5:SGLangでサーブする(ツール利用強化)
pip install "sglang[all]>=0.4.0"
python -m sglang.launch_server \
--model-path deepseek-ai/DeepSeek-V4-Flash \
--tp 2 \
--context-length 1048576 \
--port 30000
-
http://localhost:30000/v1でOpenAI互換API公開。 - SGLangの
langDSLは関数呼び出しやJSON出力で優位。
ステップ6:シングルGPU向けに量子化する
INT4量子化でV4-FlashをH100 80GB×1枚で運用可能。品質低下は5%以内。
AWQ(推奨)
pip install autoawq
python -c "
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = './models/deepseek-v4-flash'
out_path = './models/deepseek-v4-flash-awq'
model = AutoAWQForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)
model.quantize(tokenizer, quant_config={'w_bit': 4, 'q_group_size': 128})
model.save_quantized(out_path)
tokenizer.save_pretrained(out_path)
"
GPTQ
pip install auto-gptq
# GPTQ量子化のレシピを参照。AWQ同様の手順。
- 量子化済みチェックポイントはvLLM起動時に
--quantization awq/gptq指定。
ステップ7:Apidogでテストする
本番トラフィック投入前にローカルサーバーを検証しましょう。
- Apidogをインストール。
-
http://localhost:8000/v1/chat/completionsを指すAPIコレクションを作成。 - ホスト型APIで使っているテストプロンプトを貼り付け、応答を比較。
- 50万トークンのコンテキスト投入でKVキャッシュ挙動を確認。
- エージェントループ接続前にツール呼び出しフローをE2E検証。
ホスト型API用コレクションは、Base URLの切り替えのみでローカルにも流用できます。
可観測性と監視
運用開始時点から最低限以下の4メトリクスを追跡:
-
1秒あたりトークン数(プロンプト・生成両方)。vLLMはPrometheus形式で
/metricsに出力。 -
GPU利用率(
nvidia-smi/DCGM)。70%未満はバッチサイズの最適化不足。 -
KVキャッシュヒット率(
--enable-prefix-caching利用時に取得可)。 - リクエストレイテンシ(p50/p95/p99)。p99が高い場合は一部リクエスト形状がボトルネック。
これらはGrafana等の監視基盤へ連携推奨。
V4ベースチェックポイントのファインチューニング
ベースモデルは継続事前学習やSFT用途。LoRAアダプタによるSFT例:
pip install "torch>=2.6" transformers accelerate peft trl
python -m trl sft \
--model_name_or_path deepseek-ai/DeepSeek-V4-Flash-Base \
--dataset_name your-org/your-sft-set \
--output_dir ./models/v4-flash-custom \
--per_device_train_batch_size 1 \
--gradient_accumulation_steps 16 \
--learning_rate 2e-5 \
--bf16 true \
--use_peft true \
--lora_r 64 \
--lora_alpha 128
V4-Proのフルファインチューニングは研究用途。大半のチームはV4-Flash-Base+LoRAで十分実用的です。
よくある落とし穴
-
OOM(メモリ不足):
--max-model-lenがVRAMに対して過大、または並列値が低すぎる。コンテキスト短縮or並列度UPで対応。 - 初回リクエストが遅い: vLLMはカーネル遅延コンパイル。ウォームアップリクエストで解消。
- ツール利用時のパースエラー: DeepSeekのエンコーディングはOpenAIと異なる場合あり。SDKバージョン固定推奨。
- 古いGPUでFP8エラー: A100はFP8非対応。BF16運用時はVRAM消費増加に注意。
自己ホストが採算が取れる時
料金情報に基づく概算:
-
V4-Flash:月間2000億入力+200億出力トークン
- ホスト型API:約33,600ドル
- H100×8レンタル:約20,000ドル→自己ホストが40%有利
-
V4-Pro:月間5000億入力+500億出力トークン
- ホスト型API:約104万ドル
- H100×16クラスタ:約35,000ドル→自己ホストが95%以上有利
V4-Flashは月間1000億トークン超が損益分岐点。それ以下はAPI利用が推奨。
よくある質問
Q: V4-FlashはA100で動く?
A: 強い量子化+短コンテキストで可能。ただし遅い(INT4で5~15トークン/秒)。本来はH100推奨。
Q: LoRAファインチューニング対応?
A: 対応。ベースチェックポイント+TRL/Axolotl等標準パイプラインでOK。MoEルーティングは影響なし。
Q: ローカルサーバーはOpenAI互換?
A: vLLM/SGLangとも/v1/chat/completionsなどOpenAI互換APIを提供。APIガイドもlocalhostで利用可能。
Q: ローカルで思考モード有効化は?
A: リクエストボディにthinking_mode: "thinking"または"thinking_max"を指定。vLLM/SGLangで対応。
Q: ストリーミング出力対応?
A: stream: trueを指定すればOpenAI/ホストAPI同様に対応。
Q: 機材購入前に安価に試す方法は?
A: RunPodやLambdaでH100を時間単位レンタルし、INT4でV4-Flashをテスト。10~30ドル程度で現実的なスループットを実測可能。

Top comments (0)