xAIがGrok Voiceを、OpenAIがGPT-Realtime-2を同じ週に展開したことで、2026年に音声モデルを選ぶ開発者には2つの現実的な主力候補があります。どちらも推論機能付きの音声対音声モデルで、WebSocket経由で動作し、ツール利用をサポートし、人間らしい抑揚で応答します。選定では、レイテンシ、価格、音声カタログ、推論の深さ、SIP・画像入力・音声クローニングの要否を具体的に比較してください。個別の導入手順は「GPT-Realtime-2の使い方」と「Grok Voiceを無料で使う方法」を参照できます。負荷下でWebSocketセッションを検証する場合は、Apidogを使うと比較テストを組みやすくなります。
要約
-
Grok Voice (
grok-voice-think-fast-1.0) は、レイテンシ、無料コンソールアクセス、音声カタログ、音声クローニングで優位です。 - GPT-Realtime-2 は、推論の深さ、128kコンテキストウィンドウ、画像入力、ネイティブSIP、MCPで優位です。
- 有料利用の価格は大きく異なります。GPT-Realtime-2は音声入力が100万オーディオトークンあたり$32、音声出力が$64です。Grok Voiceはコンソール上では音声の分単位課金がなく、Grok 4.3の推論に対して100万トークンあたり$1.25/$2.50を支払います。
- 大量利用、低レイテンシ、音声クローニングが必要なアプリではGrok Voiceを優先します。
- 複雑な推論、マルチモーダル音声エージェント、SIPベースのコールセンターではGPT-Realtime-2を優先します。
- ApidogでWebSocketテストを一度作成すれば、URLを切り替えて両モデルを比較できます。
2つのモデルを1つの表で比較
| 機能 | Grok Voice (grok-voice-think-fast-1.0) |
GPT-Realtime-2 |
|---|---|---|
| 最初の音声出力までの時間 | 1秒未満(xAIの主張: 最も近い競合より約5倍速い) |
low 推論では1秒未満、high / xhigh ではより遅い |
| 推論レベル | low / medium / high(Grok 4.3が基盤) | minimal / low / medium / high / xhigh |
| 基盤となる知能 | Grok 4.3(知能指数 53) | GPT-5クラス |
| コンテキストウィンドウ | 1,000,000トークン(Grok 4.3) | 128,000トークン |
| プリセット音声 | 80以上(Eve、Ara、Rex、Sal、Leoの5つの音声エージェントペルソナ) | 10(新しく2つ: Cedar、Marin。8つは再調整済み) |
| 言語(TTS) | 28 | 公式には非公開 |
| 言語(STT) | 25 | GPT-Realtimeから継承 |
| 音声クローニング | あり。1分サンプル、2分未満のトレーニング | なし |
| 画像入力 | なし(テキスト + 音声のみ) | あり(写真、スクリーンショット) |
| リモートMCPサーバー | ツール利用は可能。ネイティブMCPは宣伝されていない | あり(APIがMCPツールを実行) |
| ネイティブSIP / 電話発信 | 自前のSIPプロバイダーを使用 |
あり(?call_id={call_id} エンドポイント) |
| オーディオ形式 | PCM16、MP3、μ-law | PCM16、G.711 μ-law、A-law |
| 料金モデル | 音声についてはコンソールで無料。Grok 4.3の推論のみ課金($1.25/$2.50/1M) | 入力オーディオ1Mあたり$32、出力オーディオ1Mあたり$64、テキスト1Mあたり$4/$24 |
| コンプライアンス | SOC 2 Type II、HIPAA準拠(BAA)、GDPR | SOC 2、GDPR(OpenAI Enterpriseに準拠) |
レイテンシで選ぶならGrok Voice
xAIは、grok-voice-think-fast-1.0について「最も近い競合より約5倍速い」と主張しています。この倍率はxAI自身のベンチマークに基づくため、そのまま採用するのではなく自分のワークロードで測定してください。
ただし、方向性としてはGrok Voiceが低レイテンシ寄りです。Grokの最初の音声出力までの時間は1秒を大きく下回り、GPT-Realtime-2は推論レベルに応じておおむね800ms〜1500msの範囲に収まります。
実装時は、最低限以下を計測します。
- WebSocket接続開始時刻
- ユーザー音声送信完了時刻
- 最初の音声チャンク受信時刻
- 応答完了時刻
- 推論レベル
- 使用トークン数
電話やライブ会話では、600msと1200msの差が体感品質に直結します。ユーザーが「自然に会話できる」と感じるか、「ボットが考え込んでいる」と感じるかを分ける要素です。
推奨: 消費者向け音声アプリ、音声チャット、リアルタイム応答が重要なUXでは、まずGrok Voiceを検証してください。
価格設定は課金単位から比較する
両者は課金の形が異なるため、単純なモデル単価だけでは比較できません。
GPT-Realtime-2
GPT-Realtime-2は音声をトークンとして課金します。
音声入力: $32 / 1M audio tokens
音声出力: $64 / 1M audio tokens
テキスト: $4 / $24 / 1M tokens
1秒の音声は約50トークンです。均衡の取れたターン制の5分間会話では、約30,000トークン、つまり音声I/Oで約$1.50を消費します。安定したシステムプロンプトでは、キャッシュ入力によりコストを下げられます。
Grok Voice
Grok Voiceは、xAIコンソール上ではTTS、STT、音声エージェント、カスタム音声に対して分単位または音声トークン単位の課金がありません。課金対象はGrok 4.3の推論です。
推論入力: $1.25 / 1M tokens
推論出力: $2.50 / 1M tokens
同じ5分間通話では、推論トークンは音声トークンより約1桁少なくなりやすいため、$0.10未満に収まる可能性があります。
推奨: 1日あたり10,000分以上の大量利用を想定する場合は、Grok Voiceの単位経済を先に検証してください。営業電話や規制対象サポートなど少量・高リスクのフローでは、価格差より推論品質を優先します。
Grok 4.3の価格については「Grok 4.3 APIの使い方」、OpenAIの価格については「GPT-5.5の価格設定」も参照してください。
推論の深さで選ぶならGPT-Realtime-2
GPT-Realtime-2は、OpenAIが「GPT-5クラス」と説明する音声対音声モデルです。Big Bench Audioでは96.6%、Audio MultiChallengeでは48.5%を記録しています。minimalからxhighまで5段階の推論レベルを指定できるため、リクエストごとにレイテンシと品質を調整できます。
実装では、ユースケースごとに推論レベルを固定せず、ルーティングするのが現実的です。
function selectReasoningLevel(intent) {
if (intent === "faq" || intent === "simple_status_check") {
return "low";
}
if (intent === "sales_call" || intent === "workflow_dispatch") {
return "medium";
}
if (intent === "regulated_support" || intent === "multi_tool_reasoning") {
return "high";
}
return "low";
}
Grok VoiceはGrok 4.3を基盤にしています。Grok 4.3はArtificial Analysisで知能指数53を達成し、146モデル中10位にランクインしました。エージェントタスクに強い一方、公開ベンチマーク上の音声対音声推論ではGPT-Realtime-2が優勢です。
推奨: エージェントが意図の明確化、多数のツール選択、長い会話履歴に基づく判断を行う場合は、GPT-Realtime-2を優先してください。FAQや定型スクリプト中心なら、Grok Voiceの低レイテンシが勝つ場面が多くなります。
音声カタログで選ぶ
Grokは28言語にわたる80以上のプリセット音声を提供します。音声エージェントではEve、Ara、Rex、Sal、Leoの5つのペルソナを使い、TTSではより広いライブラリから選択できます。さらに、音声クローニングにも対応しています。
GPT-Realtime-2は合計10音声です。Realtime API向けの新しいCedar、Marinに加え、alloy、ash、ballad、coral、echo、sage、shimmer、verseの8音声が再調整されています。音声数は少ないですが、一貫したオーディオスタックと予測しやすい抑揚制御が強みです。
推奨:
- ブランド音声、地域アクセント、キャラクター音声が必要: Grok Voice
- 少数の高品質音声で一貫性を重視: GPT-Realtime-2
音声クローニングが必要ならGrok Voice
xAIのカスタム音声は、約1分のクリアなスピーチから音声をクローンし、2分以内にvoice_idを返します。同じvoice_idはTTSエンドポイントと音声エージェントの両方で使えます。
OpenAIは現在、Realtime APIで音声クローニングを公開していません。
推奨: カスタムブランド音声やキャラクター音声が要件に含まれるなら、Grok Voiceを選んでください。
画像入力が必要ならGPT-Realtime-2
GPT-Realtime-2は、テキスト、音声、画像を入力として受け取れます。ユーザーのターンにスクリーンショットや写真を添付し、エージェントに内容を説明させながら会話を継続できます。
代表的なユースケースは以下です。
- フィールドサポート
- 音声駆動QA
- アクセシビリティ向けナレーション
- 画面共有中のトラブルシューティング
Grok Voiceは現在、テキストと音声のみです。
推奨: エージェントがユーザーの画面や写真を理解する必要があるなら、GPT-Realtime-2を選んでください。
OpenAIのビジョンスタックについては「GPT-Image-2 APIの使い方」も参照できます。
SIPおよび電話統合
OpenAIのRealtime APIはネイティブSIPをサポートしています。SIPトランクをOpenAIのゲートウェイに向け、インバウンドコールでは次のようなWebSocketセッションを開きます。
wss://api.openai.com/v1/realtime?call_id={call_id}
この構成では、独自のSIPブリッジ層を省略できます。
一方、Grok Voiceは電話向けにμ-law出力をサポートしていますが、Twilio、Telnyx、PlivoなどのSIPプロバイダーとブリッジは自分で実装する必要があります。
ユーザー電話
-> SIPプロバイダー
-> 自前ブリッジ
-> Grok Voice WebSocket
-> 自前ブリッジ
-> SIPプロバイダー
-> ユーザー電話
推奨: コールセンターエージェントを短期間で構築し、SIP統合の実装量を減らしたい場合はGPT-Realtime-2が適しています。
MCPとツール利用
どちらのモデルも関数呼び出しをサポートします。違いはMCPの扱いです。
- GPT-Realtime-2 はリモートMCPサーバーをネイティブにサポートします。サーバーURLとツール許可リストを設定すると、Realtime APIがMCPツール呼び出しを実行します。
-
Grok Voice は関数呼び出しをサポートし、組み込みの
web_searchツールを持ちます。ただし、MCPは第一級プリミティブとしては宣伝されていません。
ツール数が少ない場合は通常の関数呼び出しで十分です。
const tools = [
{
name: "get_order_status",
description: "注文IDから配送状況を取得する",
parameters: {
type: "object",
properties: {
order_id: { type: "string" }
},
required: ["order_id"]
}
}
];
一方、銀行、保険、社内業務エージェントのように50以上のツールを横断する場合は、MCP統合が重要になります。音声エージェントのホットパスで自前サーバーを往復させずにツールをディスパッチできるためです。
MCPサーバー単体の検証については「ApidogでのMCPサーバーテスト」を参照してください。
ユースケース別の選び方
- 消費者向け音声アプリ、大量利用、低レイテンシ重視: Grok Voice
- 音声クローニングが必要: Grok Voice
- 10言語以上の多言語TTS: Grok Voice
- スクリーンショットや写真を理解する音声エージェント: GPT-Realtime-2
- SIPを使うコールセンター: GPT-Realtime-2
- 50以上のツールを持つ多段階推論エージェント: GPT-Realtime-2(MCP)
- 長文コンテキスト会話: GPT-Realtime-2。ただし1Mコンテキストを活用でき、音声トークンコストを許容できるならGrok 4.3も検討
- 最も安価な本番環境音声エージェント: コンソール版Grok Voice
-
ベンチマーク重視の高精度推論:
xhigh推論を使うGPT-Realtime-2
導入前に両方をテストする手順
最初にどちらかを決め打ちするより、同じ会話フィクスチャを使って1週間比較する方が安全です。
1. フィクスチャ会話を作る
10ターン程度の会話を用意します。最低限、以下を含めます。
- 1つのツール呼び出し
- 1つの曖昧さ解消
- 1つの長い回答
- 実ユーザー音声の録音
- 中断または言い直し
2. WebSocketリクエストを一度だけ作る
ApidogでWebSocketリクエスト、JSONメッセージシーケンス、環境変数を設定します。
XAI_API_KEY
OPENAI_API_KEY
3. 実行ごとにURLを切り替える
Grok Voice:
wss://api.x.ai/v1/realtime?model=grok-voice-think-fast-1.0
GPT-Realtime-2:
wss://api.openai.com/v1/realtime?model=gpt-realtime-2
4. 同じ指標を記録する
比較では、主観評価だけでなく数値を残します。
- first_audio_latency_ms
- total_response_time_ms
- interruption_recovery_time_ms
- input_audio_tokens
- output_audio_tokens
- reasoning_tokens
- estimated_cost
- tool_call_success_rate
- human_rating
5. 結果をバージョン管理する
Apidogのコレクション形式はポータブルです。比較用のリクエスト、環境変数、レスポンス例をリポジトリに置けば、チーム内で再現できます。
FAQ
同じアプリで両方のモデルを使い、ランタイムでルーティングできますか?
できます。どちらも近いイベント形状で動作します。軽い意図分類器を前段に置き、カジュアルな用途はGrok Voice、複雑な推論やツール利用はGPT-Realtime-2へ送る構成が現実的です。
非英語の音声品質はどちらが良いですか?
Grokは言語カバレッジで優位です。80以上の音声とTTSで28言語を提供します。ただし、両方が対応する言語では実際の品質差が小さい場合もあるため、対象言語ごとに録音サンプルで評価してください。
GPT-Realtime-2は一般的なワークロードに対して高い価格を払う価値がありますか?
FAQ応答中心のカスタマーサポートなら、必ずしも価値があるとは限りません。CRMを読み込み、複数ツールをディスパッチし、中断から回復しながら会話を継続する営業エージェントでは、推論品質の差に価値があります。
どちらかのモデルで有名人の実際の音声をクローニングできますか?
できません。どちらのベンダーも、音声クローニングは同意されたサンプルに限定しています。許可なく有名人をクローニングすることは、両プラットフォームの利用規約に違反します。
後から一方からもう一方へ移行するにはどうすればよいですか?
イベント名やsession.updateペイロードは異なりますが、会話の構造は近いです。主な作業は、セッション設定、イベントハンドラ、ツール呼び出し部分の差し替えです。Apidogでテスト用コレクションを作っておくと、移行時に比較しやすくなります。
まとめ
Grok VoiceとGPT-Realtime-2の間に、すべてのケースで正しい選択はありません。判断軸は、レイテンシ、価格、音声カタログ、推論の深さ、SIP・MCP・画像入力などの統合要件です。
低レイテンシの消費者向け音声アプリを作るなら、Grok Voiceを先に検証してください。画像を理解し、50個以上のツールを扱い、SIPブリッジなしで電話対応するマルチモーダル音声エージェントを作るなら、GPT-Realtime-2を選ぶ方が実装しやすくなります。
迷う場合は、ApidogでWebSocketテストを一度作り、同じ会話フィクスチャで両方を1週間測定してください。最終判断は、推測ではなくレイテンシ、成功率、コストのデータで行うべきです。
Top comments (0)