DeepSeekは、2026年4月23日にV4シリーズの価格を発表し、AIモデルのコスト水準を大きく塗り替えました。V4-Flashは入力トークン100万あたり$0.14、出力100万あたり$0.28、V4-Proは入力$1.74・出力$3.48です。どちらも100万トークンのコンテキストウィンドウと最大384K出力トークンを持ち、繰り返しプロンプトに強いキャッシュヒット割引(80%–90%オフ)が自動適用されます。
このガイドでは、料金表の詳細、コンテキストキャッシュによるコスト削減、GPT-5.5やClaude Opusとのコスト比較、Apidogで支出を予測管理する4つの実践的な方法を解説します。
製品概要はDeepSeek V4とは、APIの詳細はDeepSeek V4 APIの使用方法、無料利用はDeepSeek V4を無料で利用する方法を参照してください。
TL;DR
- V4-Flash: 入力 (キャッシュミス) $0.14/M、入力 (キャッシュヒット) $0.028/M、出力 $0.28/M
- V4-Pro: 入力 (キャッシュミス) $1.74/M、入力 (キャッシュヒット) $0.145/M、出力 $3.48/M
- コンテキストウィンドウ: 両モデルとも入力1M・出力384Kトークン
- キャッシュヒット割引: Flashで約80%オフ、Proで約92%オフ
-
deepseek-chat/deepseek-reasonerは2026-07-24非推奨。料金はV4-Flashにマッピング - キャッシュミス料金でV4-ProはGPT-5.5より入力約2.9倍・出力約8.6倍安い
完全な料金表
| モデル | 入力 (キャッシュミス) | 入力 (キャッシュヒット) | 出力 | コンテキスト |
|---|---|---|---|---|
deepseek-v4-flash |
$0.14 / M | $0.028 / M | $0.28 / M | 1M / 384K |
deepseek-v4-pro |
$1.74 / M | $0.145 / M | $3.48 / M | 1M / 384K |
deepseek-chat (2026-07-24非推奨) |
V4-Flash 非思考モードにマッピング | — | — | — |
deepseek-reasoner (2026-07-24非推奨) |
V4-Flash 思考モードにマッピング | — | — | — |
実装Tips:
- モデルID (
deepseek-v4-flash/deepseek-v4-pro)で料金が決まり、推論モードの違いは消費トークン量のみ。 - キャッシュヒット料金は設定不要、自動適用。1,024トークン以上の完全一致プレフィックスが対象。
- 非推奨IDも内部でV4-Flashとして課金。API移行していなくても料金・品質はV4-Flash相当。
コンテキストキャッシングの仕組み
DeepSeek V4の最大のコスト削減策はキャッシュです。繰り返し利用されるシステムプロンプトやRAGコンテキストを持つ場合、2回目以降の呼び出しは入力料金が大幅割引されます。
例:
- 20,000トークンの固定プロンプト + 200トークンのユーザー質問 ×100回
キャッシングなし:
- 入力: 100 × 20,200 × $1.74/M = $3.52
- 出力: 100 × 500 × $3.48/M = $0.17
- 合計: $3.69
キャッシングあり(最初のみミス、残りヒット):
- 最初: 20,200 × $1.74/M = $0.035
- 99回分キャッシュヒット: 99 × 20,000 × $0.145/M = $0.287
- 99回分ユーザー部分: 99 × 200 × $1.74/M = $0.034
- 出力: 100 × 500 × $3.48/M = $0.174
- 合計: $0.53
同じワークロードでコストは約1/7。
GPT-5.5・Claudeとのコスト比較
| モデル | 入力 (通常) | 入力 (キャッシュ済み) | 出力 | コンテキスト |
|---|---|---|---|---|
| DeepSeek V4-Flash | $0.14/M | $0.028/M | $0.28/M | 1M |
| DeepSeek V4-Pro | $1.74/M | $0.145/M | $3.48/M | 1M |
| GPT-5.5 | $5/M | $1.25/M | $30/M | 1M |
| GPT-5.5 Pro | $30/M | — | $180/M | 1M |
| Claude Opus 4.6 | $15/M | $1.50/M | $75/M | 200K |
- 出力コスト: V4-ProはGPT-5.5の約1/8、Claude Opus 4.6の約1/21
- キャッシュ入力: V4-ProはGPT-5.5/Claudeの約1/10
- 性能: LiveCodeBenchやCodeforcesでGPT-5.5同等以上、コストはごく一部
- 注意: Claudeは長文検索、GeminiはMMLU-Proで一部優位
代表的ワークロードのコスト例(V4-Pro基準)
1. エージェントによるコーディングループ(50Kコンテキスト、2K出力、20回/タスク)
- 入力: 50,000 × 20 × $1.74 / M = $1.74
- 出力: 2,000 × 20 × $3.48 / M = $0.14
- タスクあたり: 約$1.88(GPT-5.5なら約$6.20)
2. 長文ドキュメントQ&A(500Kコンテキスト、1K出力)
- 入力: 500,000 × $1.74 / M = $0.87
- 出力: 1,000 × $3.48 / M = $0.003
- 呼び出しあたり: 約$0.87(GPT-5.5なら約$2.53)
3. 大量分類(2Kコンテキスト、200出力、10,000回)※V4-Flash推奨
- 入力: 2,000 × 10,000 × $0.14/M = $2.80
- 出力: 200 × 10,000 × $0.28/M = $0.56
- 合計: 約$3.36(GPT-5.5なら約$110)
4. チャットボット(10Kプロンプト、500ユーザー・1K出力、1,000セッション)
- 初回入力: 10,500 × $1.74/M = $0.018
- キャッシュヒット入力: 999 × 10,000 × $0.145/M = $1.45
- キャッシュミスユーザー: 999 × 500 × $1.74/M = $0.87
- 出力: 1,000 × 1,000 × $3.48/M = $3.48
- 合計: 約$5.82(GPT-5.5なら約$26.35)
隠れコストに注意
-
思考モードのトークン爆発
thinking_maxは非思考の3~10倍トークン消費。Think Maxは厳格にフラグ管理。 - コンテキストの膨張 会話全履歴を毎ターン送ると1Mトークンに膨れがち。積極的に要約・トリミング推奨。
- 自動リトライ地獄 500エラーで無限リトライするとコストが倍増。指数バックオフ+リトライ上限必須。
- 開発時の無駄請求 curl等で都度全コンテキスト送信するとコスト増。Apidogなら変数置換で無駄な再送信を削減。
Apidogによるコストトラッキング
-
Apidogをダウンロードし、
DEEPSEEK_API_KEYを環境ごとにシークレット変数登録 -
https://api.deepseek.com/v1/chat/completionsへのPOSTリクエストを保存 - レスポンスパネルで
usage.prompt_tokens・usage.completion_tokens・usage.reasoning_tokensをピン留め -
model・thinking_modeをパラメータ化し、V4-Flash/Proや思考モードのA/Bテストを容易に - GPT-5.5についても同様コレクションを作成(APIガイド参照)し、両プロバイダーのコスト比較が可能
このプロセスで、月末請求で驚く「謎のコスト」の約80%を事前に捕捉できます。
支出を予測可能にする4つのルール
- V4-Flashをデフォルトに 品質上必要な場合のみV4-Proへ切り替え
- 非思考モードをデフォルトに 困難タスク時のみThink High、正確性重視時のみThink Maxを明示指定
-
max_tokensは明示的に設定 384K出力は上限値。実運用は2K程度が目安 -
トークン消費を毎回記録
prompt_tokens・completion_tokens・reasoning_tokensを全呼び出しでログ。推論トークン急増は設定ミスのシグナル
よくある質問
Q. 無料枠はある?
A. APIに無料枠はありませんが、新規アカウントにトライアルクレジットが付与される場合があります。API外の無料利用方法はこちら。
Q. キャッシュヒット料金は自動?
A. はい。同一アカウント内で1,024トークン以上の完全一致プレフィックスは自動で割引。初回はミス料金、以後はヒット料金。
Q. 思考モードは高くつく?
A. 1トークンあたりの料金は同じですが、推論トレースで消費トークンが増えます。usage.reasoning_tokensの監視推奨。
Q. 料金は安定してる?
A. DeepSeekは定期的に料金改定あり。V4は現時点で終了日未定。ライブ料金ページで最新を要確認。
Q. V4-ProとV4-Flashで出力料金は同じ?
A. 違います。Proは$3.48/M、Flashは$0.28/Mで12.4倍差。デフォルトはFlash推奨。
Q. Anthropic形式エンドポイントで料金は変わる?
A. 変わりません。https://api.deepseek.com/anthropicもOpenAI形式と同一料金です。
Top comments (0)