DeepSeek V4は2026年4月23日に、4つのチェックポイント、ライブAPI、そしてHugging Face上のMITライセンスのウェイトと共にリリースされました。この組み合わせは、単一の「正しい」使用方法がないことを意味します。最適なパスは、即座のアクセス、本番APIコール、またはオンプレミスデプロイメントのいずれを望むかによって異なります。このガイドでは、これら3つすべてについて、トレードオフ、落とし穴、そして再利用可能な本番対応プロンプトワークフローを説明します。
製品レベルの概要だけを知りたい場合は、まずDeepSeek V4とは何かをお読みください。純粋なAPIのウォークスルーについては、DeepSeek V4 APIガイドをご覧ください。費用のかからないパスについては、DeepSeek V4を無料で使う方法をご覧ください。実際の要求をテストする準備ができたら、Apidogを入手し、コレクションを事前に構築してください。
要約
- 最速パス: chat.deepseek.com。無料ウェブチャット、V4-Proがデフォルト、3つの推論モード。
- 本番パス: モデルID
deepseek-v4-proまたはdeepseek-v4-flashを用いたhttps://api.deepseek.com/v1/chat/completions。 - セルフホストパス: Hugging Faceからウェイトをプルし、リポジトリ内の
/inferenceスクリプトを実行。 - ルーティングと分類にはNon-Think、コードと分析にはThink High、精度がコストよりも重要な場合にのみThink Maxを選択してください。
- DeepSeekからのサンプリング推奨:
temperature=1.0, top_p=1.0。これを疑ってはいけません。 - APIクライアントとしてApidogを使用してください。OpenAI互換の形式は、保存されたリクエストがDeepSeek、OpenAI、Anthropic間で再利用可能であることを意味します。
ワークロードに適したパスを選択する
実現可能な4つのパスがあります。それぞれ異なる状況で優位性を発揮します。
| パス | コスト | セットアップ時間 | 最適用途 |
|---|---|---|---|
| chat.deepseek.com | 無料 | 30秒 | クイックテスト、アドホックな作業 |
| DeepSeek API | トークンごとの課金 | 5分 | 本番、エージェント、バッチ処理 |
| セルフホスト型V4-Flash | ハードウェアコストのみ | 数時間 | オンプレミスコンプライアンス、オフライン推論 |
| セルフホスト型V4-Pro | クラスタコストのみ | 1日 | 研究、カスタムファインチューニング |
| OpenRouter / アグリゲーター | トークンごとの課金 | 2分 | 複数プロバイダーフォールバック |
パス1: ウェブチャットでV4を使用する
DeepSeek V4を最速で体験するには、公式チャットUIを使います。
- chat.deepseek.comにアクセス
- メール、Google、WeChatのいずれかでサインイン
- デフォルトはV4-Pro。コンポーザー上部のトグルで、Non-Think、Think High、Think Maxを切り替え
- 入力してAIに指示
ウェブチャットはファイルアップロード、ウェブ検索、最大1Mトークンのコンテキストをサポートします。アカウント単位でレート制限がありますが、完全なブロックはほぼありません。
◎適した用途: エラートレースの診断、PDF要約、他AIとの比較ベンチマーク
✕不向き: 自動化や再現性が必要な処理
パス2: DeepSeek APIを使用する
API経由で本番導入や自動化を行う場合の具体手順です。
キーを取得する
- platform.deepseek.comでサインアップ
- 支払い情報を追加(最低2ドル)
- 「API Keys」からAPIキーを1回だけコピー
export DEEPSEEK_API_KEY="sk-..."
最小限の有効なリクエスト
curl https://api.deepseek.com/v1/chat/completions \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
],
"thinking_mode": "thinking"
}'
コスト重視ならdeepseek-v4-flash、高速化ならthinking_modeをnon-thinkingに切り替えてください。
Pythonクライアント
OpenAI SDKと同じインターフェースで利用できます。LangChainやLlamaIndex、DSPyもそのまま動作。
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1",
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "You are a concise senior engineer."},
{"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
],
extra_body={"thinking_mode": "thinking_max"},
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
Nodeクライアント
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com/v1",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
temperature: 1.0,
top_p: 1.0,
});
console.log(response.choices[0].message.content);
詳細やエラーハンドリングはDeepSeek V4 APIガイドを参照してください。
パス3: Apidogで反復する
Curlや手動リクエストは1回きりなら良いですが、反復や比較、再利用にはApidogを使うと圧倒的に効率的です。
- Mac/Windows/Linux向けのApidogをダウンロード
- 新規APIプロジェクトを作成、POSTリクエストで
https://api.deepseek.com/v1/chat/completionsを追加 - ヘッダーに
Authorization: Bearer {{DEEPSEEK_API_KEY}}を追加し、キーは環境変数に保存 - JSONリクエストボディを貼り付けて保存、以降はワンクリックで再実行や編集が可能
- 応答ビューアでNon-Think/Think Maxの比較や推論トレースをチェック
OpenAI/Claude/DeepSeekリクエストを同じコレクションで管理可能。A/Bテストも容易で、課金状況も一元化されます。既存のGPT-5.5 APIコレクションもベースURLの変更だけで流用できます。
パス4: V4-Flashをセルフホストする
オンプレミス要件やコスト最適化が必要な場合、MITライセンスのV4はセルフホスト可能です。
ハードウェア要件
- V4-Flash: FP8時はH100/H200/MI300Xを2〜4枚。INT4量子化なら80GB GPU 1枚で動作可能。
- V4-Pro: 本番利用には16〜32枚のH100クラスGPUが必要。
ウェイトを取得する
pip install -U "huggingface_hub[cli]"
huggingface-cli login # 必要に応じて
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
V4-FlashはFP8で約500GB、V4-Proは数TB規模です。
推論を実行する
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto
vLLM起動後、OpenAI互換クライアントのベースURLをhttp://localhost:8000/v1に設定します。Apidogでも同じコレクションを流用できます。
V4を効果的にプロンプトする
DeepSeek V4で最大効果を得るためのプロンプト設計:
-
必ず
thinking_modeを明示指定。用途に応じてNon-Think/Think High/Think Maxを切り替える。 - システムプロンプトはペルソナ用、タスクはユーザーメッセージに。仕様はsystemではなくuserに記述。
- コード生成時はテストケースを一緒に与える。例:失敗するテストコードや期待値を含めると精度が向上。
長文コンテキスト利用時は、重要な資料を冒頭/末尾に配置することで注意力バイアスを活用できます。
コスト管理
コスト暴走を防止する実践的な3つのガードレール:
- まずはV4-Flash+Non-Thinkモードをデフォルトに設定
- 難易度に応じてThink High・Think Maxへ段階的に切替
-
max_tokensで出力上限を明示設定(1Mは上限、通常は2000程度で十分)
Apidogの環境変数でAPIキーを分離し、テストと本番の課金アカウントを分けて管理。Apidogはトークン数も記録でき、プロンプト肥大化も可視化できます。
DeepSeek V3または他のモデルからの移行
既存のワークフローをV4へ速やかに移行する方法:
-
deepseek-chat/deepseek-reasonerから: モデルIDをdeepseek-v4-proまたはdeepseek-v4-flashに変更。 -
OpenAI GPT-5.xから: ベースURLを
https://api.deepseek.com/v1に、モデルIDをv4系に。形式やパラレルリクエストはGPT-5.5 APIガイドを参照。 -
Anthropic Claudeから: Anthropic形式維持なら
https://api.deepseek.com/anthropic、OpenAI形式に変換しても利用可能。
よくある質問
V4を使用するには有料アカウントが必要ですか?
ウェブチャットは無料。APIは最低2ドルから。無料利用方法はこちら。
どのバリアントをデフォルトにすべき?
まずはV4-Flash+Non-Thinkでスタート、必要に応じて上位モードへ。
MacBookでV4は動く?
V4-Flashは重い量子化でM3 Max/M4 Maxの128GBメモリ搭載機で動作可(低速)。V4-Proは不可。軽量実験はAPIやウェブチャット推奨。
ツール利用や関数呼び出しは?
OpenAI互換エンドポイントはtools配列・tool_callsに対応。Anthropic形式もネイティブ対応。
応答ストリーミングは?
リクエストボディでstream: trueを指定。OpenAIストリーミング対応ライブラリでそのまま利用可能。
レート制限は?
APIはapi-docs.deepseek.comで制限を公開。セルフホストはハードウェア上限のみ。


Top comments (0)