過去2年間ほど、「最高のコーディングモデルは何か?」への答えはほぼ決まっていました。GPT、Claude、Geminiのいずれかを選び、トークン単価を払い、モデルの重みが他社データセンターに閉じていることを受け入れる、という選択です。しかし現在は、MiniMax、DeepSeek、Alibaba Qwenのような中国発モデルが、コーディングとエージェント用途で最先端に近い性能を出しつつ、オープンウェイトまたは低価格APIを武器に選択肢を広げています。
この記事では、MiniMax M3、DeepSeek V4-Pro、Qwen3.7-Max-Previewを、開発者が実際に選定・検証できる観点で比較します。見るべきポイントは次の4つです。
- オープンウェイトか
- コーディング / エージェント性能の根拠があるか
- 長文コンテキストを実運用できるか
- APIコストと自己ホストの選択肢があるか
3つの候補
MiniMax M3
MiniMax M3は2026年6月1日に登場した、コーディングとエージェント作業向けのモデルです。特徴は次の通りです。
- 1,000,000トークンのコンテキストウィンドウ
- 画像・動画入力に対応するネイティブマルチモーダリティ
- コンピューター使用タスクへの対応
- MSAアーキテクチャ
- オープンウェイト予定
- パラメータ数は未開示
MiniMaxは、リリース後約10日以内にウェイトと技術レポートを公開すると述べています。詳細はMiniMax M3とは何かで確認できます。
DeepSeek V4-Pro
DeepSeek V4-Proは、推論とコーディングに重点を置いた主力モデルです。特徴は、最終回答の前にreasoning_contentとして思考プロセスを返す点です。
この形式は、複数ファイルにまたがるリファクタリング、依存関係の追跡、シグネチャ変更のような作業で有効です。DeepSeekはR1およびV3シリーズでオープンウェイトを公開してきた実績があり、V4-Proにはより安価な非思考型のV4-Flashバリアントもあります。
公式サイトとAPIはdeepseek.comで提供されています。
Qwen 3.7
Qwen 3.7はAlibabaのフラッグシップ系列で、Qwen3.7-Max-Previewが中心です。
特徴は次の通りです。
- 1,000,000トークンのコンテキストウィンドウ
- 推論モデル
- 長期間のエージェント実行を重視
- Alibaba Cloud経由で利用
- 2026年5月中旬時点ではフラッグシップはクローズドウェイト
Alibabaは過去に下位層モデルをオープンソース化してきた実績がありますが、Qwen3.7-Max-Preview自体は現時点ではオープンウェイトではありません。詳細はQwen 3.7とは何かで確認できます。Alibabaのオープンソースリポジトリはgithub.com/QwenLMです。
仕様比較
| 仕様 | MiniMax M3 | DeepSeek V4-Pro | Qwen3.7-Max-Preview |
|---|---|---|---|
| ベンダー | MiniMax | DeepSeek | Alibaba (Qwen) |
| リリース | 2026年6月1日 | 2026年 | 2026年5月 (プレビュー) |
| オープンウェイト | はい (ウェイトは〜10日以内) | はい (DeepSeekのR1/V3における実績) | まだ (フラッグシップはクローズドウェイト) |
| コンテキストウィンドウ | 1,000,000トークン | ここでは未記載 | 1,000,000トークン |
| マルチモーダル | はい (画像+動画、コンピューター使用) | いいえ (テキスト+推論) | テキスト中心の推論 |
| 推論 / 思考モード | はい | はい (reasoning_content) |
はい (拡張された思考) |
| パラメータ数 | 未開示 | ここでは未開示 | ここでは未開示 |
| アーキテクチャ | MSA | ここでは未記載 | ここでは未記載 |
実装前に最初に見るべきなのは、オープンウェイトの有無です。
- 今すぐ自己ホストやベンダーロックイン回避が必要: MiniMax M3またはDeepSeek V4-Pro
- ホスト型APIでよい: Qwen3.7-Max-Previewも候補
- フラッグシップのオープンウェイトが必須: Qwen3.7-Max-Previewは現時点では除外
コーディングとエージェント性能
MiniMax M3は、リリース時にコーディングおよびエージェント向けベンチマークを公開しています。ただし、以下はMiniMaxによるベンダー報告値です。第三者再現までは、リリース時点の主張として扱うべきです。
| ベンチマーク (ベンダー報告、MiniMax) | MiniMax M3 |
|---|---|
| SWE-Bench Pro | 59.0% |
| Terminal-Bench 2.1 | 66.0% |
| SWE-fficiency | 34.8% |
| KernelBench Hard | 28.8% |
| MCP Atlas | 74.2% |
| PostTrainBench | 0.37 |
| SVG-Bench | Opus 4.7を上回ると報告 |
| OmniDocBench | Gemini 3.1 Proを上回ると報告 |
| Claw-Eval | そのセット内で最高と報告 |
SWE-Bench ProとTerminal-Benchは、GitHub issueの解決やターミナル操作のような実務に近いタスクを測ります。MCP Atlasはツール使用とエージェントオーケストレーションを測ります。SWE-Benchの状況はSWE-Benchリーダーボードで確認できます。
DeepSeek V4-ProとQwen 3.7については、同じ形式のエージェントコーディング数値が公開されていないため、セル単位の直接比較はできません。現時点で実務上見るべき点は次の通りです。
DeepSeek V4-Pro
第三者比較では、コーディング能力がGPT-5.5から数ベンチマークポイントの範囲にあるとされます。一方で価格は大幅に低く、推論チェーンにより複数ファイルのリファクタリングや依存関係の追跡に強みがあります。Cursorでの設定とコスト計算はCursorでDeepSeek V4-Proを使用する方法で確認できます。Qwen 3.7
Artificial Analysis Intelligence Indexで57点を獲得し、リリース時にはそのリーダーボードで1位の結果として報告されました。LM Arenaでは約1,475 Eloを記録し、コーディングカテゴリでトップ10入りしています。Alibabaは、長期間にわたる自律エージェント実行と高度なツール使用を訴求しています。
実務での結論はシンプルです。
- 公開されたエージェントコーディング指標を重視するならMiniMax M3
- 低コストで推論主導のコード生成を重視するならDeepSeek V4-Pro
- 複合知能スコアと長いエージェントチェーンを重視するならQwen3.7-Max
ただし、最終判断は自分のリポジトリで同じプロンプトを実行して決めるべきです。Qwenの比較詳細はQwen 3.7 vs GPT-5.5 vs Opus 4.7にあります。
長文コンテキストを使うときの実装方針
MiniMax M3とQwen3.7-Maxは、どちらも1,000,000トークンのコンテキストウィンドウを宣伝しています。これはおよそ70万〜75万語に相当します。
用途としては、次のようなケースが考えられます。
- 中規模リポジトリ全体を投入する
- 大量のPDFや仕様書をまとめて読ませる
- 長期間の会話履歴を保持する
- エージェントに複数ステップの作業履歴を渡す
ただし、実装時は次の2点に注意してください。
大きなコンテキストは上限であり、完全なリコールを保証しない
ウィンドウが大きくなるほど、重要情報の検索や推論が不安定になる可能性があります。送信した全トークンが課金対象になる
100万トークンのプロンプトは、当然ながら高価なプロンプトです。
実装では、常にフルコンテキストを投げるのではなく、タスク単位で削る設計にしてください。
例:
悪い例:
- リポジトリ全体
- 全ログ
- 全会話履歴
- 全ドキュメント
を毎回投入する
良い例:
- 関連ファイルだけ抽出
- 直近の実行ログだけ渡す
- 仕様書は該当章だけ渡す
- エージェント履歴は要約して渡す
MiniMax M3は、512K入力トークンまでの標準API料金と、それを超える長文コンテキスト料金を分けています。これは、長文コンテキストが実質的にプレミアム用途であることを示しています。エージェントのトークンコスト削減策はエージェントトークンコストを削減する方法で確認できます。
価格とアクセス
価格は、この比較で最も重要な要素です。西洋の主要モデルでは高額になりがちなエージェントワークロードが、中国発モデルでは大幅に安く実行できる可能性があります。この流れは2026年の中国LLM価格戦争の背景にもなっています。
DeepSeek V4-Pro
DeepSeek V4-Proは、3つの中で最も明確なトークン単価を公開しています。2026年5月時点の標準料金は以下です。
| トークンタイプ | DeepSeek V4-Pro 100万トークンあたりの料金 |
|---|---|
| 入力 (キャッシュミス) | $0.435 |
| 入力 (キャッシュヒット) | $0.003625 |
| 出力 | $0.87 |
この出力料金は、GPT-5.5の出力コストの約1/34に相当します。非思考型のV4-Flashはさらに安く、入力 / 出力100万トークンあたり$0.14 / $0.28です。
大量のエージェントトラフィック、CI内のコードレビュー、日常的なコーディングアシスタント用途では、DeepSeekの価格は大きな優位になります。
MiniMax M3
MiniMax M3は、単一のトークン単価ではなくトークンプランを販売しています。
- Plus: $20
- Max: $50
- Ultra: $120
APIでは、512Kトークンまでの入力に標準料金を適用し、それを超える場合に長文コンテキスト料金を適用します。MiniMaxは正確なトークン単価を公開していないため、ここでは引用しません。
月額予算を読みやすくしたいチームには、従量課金より扱いやすい場合があります。接続方法はMiniMax M3 APIの使用方法にあります。
Qwen 3.7
Qwen3.7-MaxはAlibaba Cloud経由でトークンごとに課金されます。プレビューモデルの料金は変更される可能性があるため、実装前にAlibaba Cloudの現在のモデルドキュメントで確認してください。
自己ホストの観点
オープンウェイトかどうかは、コスト構造を大きく変えます。
- MiniMax M3: ウェイト公開予定により自己ホストの選択肢あり
- DeepSeek V4-Pro: DeepSeekのオープンリリース実績により自己ホストの選択肢あり
- Qwen3.7-Max-Preview: フラッグシップは現時点でクローズドウェイトのため自己ホスト不可
ベンダーロックイン回避が要件なら、Qwen3.7-Max-Previewはこの時点で不利です。
選定ガイド
| あなたの優先順位 | 最適なモデル | 理由 |
|---|---|---|
| 公開されたベンチマークを持つエージェントコーディング | MiniMax M3 | リリース時における透明性の高いSWE-Bench Pro / Terminal-Bench / MCP Atlasの数値 (ベンダー報告) |
| マルチモーダル入力 (画像、動画、コンピューター使用) | MiniMax M3 | ネイティブなマルチモーダリティを持つ3つの中で唯一のモデル |
| 大量APIトラフィックにおける最低コスト | DeepSeek V4-Pro | 出力100万トークンあたり約$0.87、より安価なFlashバリアントとキャッシュヒット価格あり |
| 困難なリファクタリングにおける推論主導のコード品質 | DeepSeek V4-Pro | 思考チェーンが複数ファイルの依存関係を一度に捉える |
| 公開リーダーボードでの複合知能スコアトップ | Qwen3.7-Max | AA Intelligence Index 57、リリース時に1位と報告 |
| 長期間にわたる自律エージェントの実行 | Qwen3.7-Max または MiniMax M3 | 両者ともに耐久性と高度なツール使用を訴求。M3はMCP Atlasも公開 |
| 自己ホスト / 今すぐベンダーロックインなし | MiniMax M3 または DeepSeek V4-Pro | 両者ともにオープンウェイトを公開。Qwenのフラッグシップはクローズド |
実務では、次のように選ぶと整理しやすくなります。
if オープンウェイト必須:
MiniMax M3 または DeepSeek V4-Pro
elif マルチモーダル必須:
MiniMax M3
elif APIコスト最優先:
DeepSeek V4-Pro
elif 複合リーダーボードスコア重視:
Qwen3.7-Max
else:
3モデルを同じプロンプトで比較
自分のワークロードでテストする
リーダーボードは参考になりますが、あなたのコードベースでの結果は別です。3つのモデルはすべてAPIを提供しているため、同じプロンプトを投げて比較するのが最短です。
Apidogを使う場合、次のように比較環境を作れます。
- Apidogプロジェクトを作成する
- MiniMax M3、DeepSeek V4-Pro、Qwen3.7-Max用に3つの環境を作成する
- 各モデルのOpenAI互換チャット補完スキーマをインポートする
- 同じプロンプトを3モデルに送る
- 出力、レイテンシ、コスト、JSON形式の安定性を比較する
比較するときは、次のようなタスクを用意すると実用的です。
タスク1:
このリポジトリの認証処理を読み、JWT検証の責務を分離してください。
タスク2:
以下のAPI仕様に合わせてTypeScript SDKの型定義を更新してください。
タスク3:
このエラーログを読み、最も可能性が高い原因と修正パッチを提案してください。
タスク4:
既存のテストを壊さずに、この関数を非同期処理へリファクタリングしてください。
Apidogでは次の検証もできます。
- M3、V4-Pro、Qwen3.7-Maxへ同一プロンプトを送信して差分を比較
- ゴールデンレスポンスを保存し、プロンプト変更時にリプレイ
- JSON Schemaアサーションで
tool_callsやreasoning_contentの形式を検証 - システムプロンプト変更によるエージェント破損を検出
Apidogをダウンロードし、3つの環境をそれぞれのモデルエンドポイントに向ければ、数分で比較ベンチを作れます。MiniMax M3のAPI設定はMiniMax M3 APIの使用方法で確認できます。
よくある質問
2026年現在、最高のオープンウェイトコーディングモデルはどれですか?
リリース時点での検証可能なエージェントコーディング実績では、MiniMax M3が最も明確です。SWE-Bench Pro 59.0%やTerminal-Bench 2.1 66.0%などのタスクレベルのベンチマークを公開しているためです。ただし、これらはベンダー報告です。
DeepSeek V4-Proは、低価格と推論主導のコード品質で強い候補です。Qwen3.7-Maxは複合リーダーボードで高い結果を出していますが、現時点ではオープンウェイトではありません。
結論としては、3つの数値は直接比較できないため、決定前に自分のワークロードで実行してください。
これら3つはすべて本当にオープンウェイトですか?
まだです。
- MiniMax M3: オープンウェイト予定。2026年6月1日のリリース後約10日以内にウェイトと技術レポートを公開予定
- DeepSeek V4-Pro: DeepSeekはR1およびV3ファミリーでオープンウェイト公開実績あり
- Qwen3.7-Max-Preview: 2026年5月中旬時点ではプロプライエタリでクローズドウェイト
Qwenについては、将来的に下位層がオープンソース化される可能性はありますが、確定事項ではありません。詳細はQwen 3.7とは何かで確認できます。
最も大きなコンテキストウィンドウを持つのはどれですか?
MiniMax M3とQwen3.7-Maxは、どちらも1,000,000トークンのウィンドウを宣伝しています。これはおよそ70万〜75万語です。
DeepSeek V4-Proのコンテキストサイズはここでは記載されていません。
ただし、大きなコンテキストは完全なリコールを保証しません。また、送信したすべてのトークンが課金対象になります。
実行コストが最も安いのはどれですか?
公開されているトークン単価では、DeepSeek V4-Proが最も安い候補です。出力100万トークンあたり約$0.87で、V4-Flashは入力 / 出力100万トークンあたり$0.14 / $0.28です。
MiniMax M3は、トークン単価ではなく月額トークンプラン($20 / $50 / $120)を提供しています。Qwen3.7-MaxはAlibaba Cloudでトークンごとに課金されます。
自己ホストできる場合、オープンウェイトモデルは限界費用をハードウェア費用に近づけられます。より広い価格動向は2026年の中国LLM価格戦争で確認できます。
MiniMax M3はDeepSeek V4-Proよりコーディング性能が高いですか?
現時点では直接比較できません。
MiniMax M3はSWE-Bench ProやTerminal-Benchの結果を公開していますが、DeepSeek V4-Proは同じ形式でそれらのタスクを報告していません。
M3の強みは、公開されたエージェントベンチマークとマルチモーダリティです。DeepSeekの強みは、低価格と複数ファイルのリファクタリングに強い推論チェーンです。
3モデルともOpenAI互換APIを使えるため、公平なテストは、自分のリポジトリで同一プロンプトを実行することです。
まとめ
MiniMax M3、DeepSeek V4-Pro、Qwen3.7-Max-Previewは、それぞれ異なる最適化軸を持っています。
- 公開されたエージェントコーディング指標、1Mコンテキスト、マルチモーダリティを重視するならMiniMax M3
- 低コストと推論主導のコード品質を重視するならDeepSeek V4-Pro
- 複合リーダーボードスコアとホスト型APIでの長期エージェント実行を重視するならQwen3.7-Max
ただし、M3の一部数値はベンダー報告であり、Qwen3.7-Maxのフラッグシップは現時点でオープンウェイトではありません。
最終的には、1つのApidogプロジェクトで3つのAPIに同じプロンプトを投げ、出力品質、コスト、形式安定性を比較してください。自分のワークロードで勝つモデルが、実際に選ぶべきモデルです。
Top comments (0)