Anthropicは2026年5月28日にClaude Opus 4.8を出荷し、同日中にClaude API、Claudeアプリ、Claude Code、および主要なクラウドプラットフォームで利用可能にしました。Claudeファミリーの中で最も高性能なモデルであり、複雑な推論、長時間のエージェント的コーディング、高い自律性を要するタスク向けに設計されています。APIモデルIDはclaude-opus-4-8です。
すでにOpus 4.7で実装している場合、移行は基本的にモデルIDを1行変更するだけです。料金、コンテキストウィンドウ、最大出力は4.7から変わりません。変わったのは品質です。Anthropicの発表によると、Opus 4.8は4.7と比べてコード欠陥を見逃す可能性が約4分の1になり、不確実な内容についてより正直に答えます。
この記事では、Opus 4.8で何が変わったのか、APIでどう使うのか、既存実装をどう移行・検証するのかを実装寄りに整理します。
要約
初日に押さえるべきポイントは次の3つです。
-
モデルIDは
claude-opus-4-8- Claude API
- AWS
- Vertex AI
- Microsoft Foundry
-
Opus 4.7と同じ価格
- 標準モード:入力100万トークンあたり5ドル
- 標準モード:出力100万トークンあたり25ドル
-
1Mトークンのコンテキスト、128Kトークンの出力
- 4.7と同じため、既存のトークン予算を流用しやすい
追加で重要なのは次の点です。
-
effortパラメーターで、応答全体の徹底度とトークン効率を調整できる - 適応的思考により、モデルがリクエストごとに推論量を判断する
- Claude Codeのダイナミックワークフローで、1セッション内に多数の並列サブエージェントを起動できる
- コード欠陥の見逃しが減り、ツール呼び出しがより効率的になった
料金を細かく見積もる場合は、Opus 4.8の料金内訳を参照してください。すぐに実装したい場合は、Opus 4.8 APIガイドから始めると早いです。
Opus 4.8で実際に変わったこと
Opus 4.8は、Opus 4.7の仕様を維持しつつ、内部品質を改善したモデルです。主な改善点は4つあります。
1. コード品質
Opus 4.8は、自身のミスをより頻繁に検出します。Anthropicによると、Opus 4.7と比較してレビューで見過ごされるコード欠陥が約4分の1に減少しました。
エージェントにコード修正を任せる場合、これは生成される差分に潜在バグが入りにくくなることを意味します。
2. 正直さとアラインメント
Opus 4.8は、不確実な内容に対してより明確に不確実性を示します。根拠のない断定が減るため、無人で動くエージェントや自動レビュー用途では扱いやすくなります。
Anthropicは、Opus 4.7と比べて詐欺や悪用への協力率も低下したと報告しています。
3. ツール呼び出し
ツール呼び出しの選択が効率化されています。不要なツール呼び出しが減ることで、エージェントループ内のレイテンシーとトークン消費を抑えやすくなります。
4. Effortコントロール
API実装で最も意識すべき変更がeffortです。次のセクションで具体的に見ます。
Effortコントロール:1つのモデルで5段階の実行モードを使う
effortパラメーターを使うと、Claudeがどの程度トークンを使って作業するかを調整できます。
指定場所はoutput_config内です。
{
"model": "claude-opus-4-8",
"max_tokens": 4096,
"messages": [
{
"role": "user",
"content": "Refactor this module."
}
],
"output_config": {
"effort": "xhigh"
}
}
指定できる値は次の5つです。
lowmediumhighxhighmax
デフォルトは、APIとClaude Codeを含むすべてのインターフェースでhighです。
注意点として、effortは推論だけでなく、すべての出力トークンに影響します。対象には次が含まれます。
- 通常のテキスト
- ツール呼び出し
- 関数引数
- 推論に関わる出力
実装時の目安は次の通りです。
| 用途 | 推奨effort |
|---|---|
| 長時間のエージェントコーディング |
xhighから開始 |
| 複雑な推論 |
high以上 |
| 通常のQAや軽い補助 |
mediumを評価後に検討 |
| 高スループット・低コスト重視 |
lowを評価後に検討 |
Anthropicは、コーディングやエージェントタスクではxhighから始めることを推奨しています。詳細はAnthropicのeffortドキュメントを確認してください。
手動予算ではなく適応的思考を使う
Opus 4.8では、適応的思考を使用します。
リクエストでは次のように指定します。
{
"model": "claude-opus-4-8",
"max_tokens": 4096,
"thinking": {
"type": "adaptive"
},
"messages": [
{
"role": "user",
"content": "この設計のリスクをレビューしてください。"
}
],
"output_config": {
"effort": "high"
}
}
thinking: { "type": "adaptive" }を指定すると、モデルがリクエストごとに推論の有無と深さを判断します。
effortとの関係は次のように考えると実装しやすいです。
-
high/xhigh/max- 深い思考が使われやすい
-
medium/low- 単純な問題では思考をスキップする場合がある
移行時の重要な注意点があります。
Opus 4.8では、budget_tokensを使った手動の拡張思考はサポートされていません。指定すると400エラーになります。
古いOpus向けに次のような実装をしている場合は変更が必要です。
{
"thinking": {
"type": "enabled",
"budget_tokens": 10000
}
}
Opus 4.8では、次の形に移行します。
{
"thinking": {
"type": "adaptive"
},
"output_config": {
"effort": "xhigh"
}
}
正確なリクエスト形式は、Opus 4.8 APIガイドで確認できます。
Claude Codeのダイナミックワークフロー
Opus 4.8の目玉機能の1つが、Claude Code内のダイナミックワークフローです。
ダイナミックワークフローでは、1つのセッション内で多数の並列サブエージェントを起動し、大規模で分岐するタスクを処理できます。
この仕組みは主に次の組み合わせで動きます。
-
xhigheffort - 会話途中からシステムメッセージを受け入れられるMessages APIの更新
従来、システムメッセージは会話開始時に設定するものでした。Opus 4.8では会話の途中でも扱えるため、オーケストレーターエージェントが進行中のタスクに応じてワーカーを生成しやすくなります。
同様の構成を生APIで組む場合は、次のような設計になります。
- 親エージェントがタスクを分解する
- サブタスクごとにワーカー用メッセージを作る
- 各ワーカーがツールを使って結果を返す
- 親エージェントが結果を統合する
- 必要に応じて追加ワーカーを生成する
詳細はClaude Codeのダイナミックワークフロー詳細解説を参照してください。Claude Codeの実行構造を理解したい場合は、Claude Codeのエージェントハーネスアーキテクチャの解説も参考になります。
ベンチマークのハイライト
Anthropicが強調している数値は、主にエージェント作業に関するものです。
- エンドツーエンドのタスク完了を測るSuper-AgentベンチマークでGPT-5.5を上回った
- Legal Agentベンチマークでトップとなり、全体で10%を超える初のモデルになった
- WebナビゲーションエージェントテストであるOnline-Mind2Webで84%
重要なのは、これらがチャット単体のスコアではなく、エージェントスコアである点です。Opus 4.8は、短い応答よりも、複数ステップの作業、ツール利用、判断を伴うタスクを主なターゲットにしています。
他モデルとの比較は、Opus 4.8 vs GPT-5.5 vs Gemini 3.5を参照してください。4.7世代のベースラインには、Gemini 3.5 vs GPT-5.5 vs Opus 4.7が使えます。
Opus 4.8 vs Opus 4.7
| 属性 | Opus 4.7 | Opus 4.8 |
|---|---|---|
| API ID | claude-opus-4-7 |
claude-opus-4-8 |
| 入力価格 | 1Mトークンあたり5ドル | 1Mトークンあたり5ドル |
| 出力価格 | 1Mトークンあたり25ドル | 1Mトークンあたり25ドル |
| コンテキストウィンドウ | 1Mトークン | 1Mトークン |
| 最大出力 | 128Kトークン | 128Kトークン |
| Effortレベル | lowからmax | lowからmax |
| 見過ごされたコード欠陥 | ベースライン | 約4分の1に減少 |
| 正直さ/アラインメント | ベースライン | 改善 |
| 知識カットオフ | 2026年1月 | 2026年1月 |
仕様はほぼ同じです。同じ料金・同じコンテキスト条件で、よりミスが少ないモデルを使えるため、多くのチームでは移行リスクは低いでしょう。
ただし、本番投入前には必ず次を確認してください。
- ツール呼び出しのJSONスキーマ
- ストリーミングレスポンスのパース
-
output_config追加によるリクエスト生成処理 -
thinkingレスポンスの扱い - 既存評価セットでの品質差分
- コストとレイテンシーの変化
Claude Opus 4.8へのアクセス方法
主なアクセス方法は4つです。
1. Claude API
Messagesエンドポイントで、モデルIDにclaude-opus-4-8を指定します。
{
"model": "claude-opus-4-8",
"max_tokens": 4096,
"messages": [
{
"role": "user",
"content": "このPRのリスクをレビューしてください。"
}
]
}
実装例はOpus 4.8 APIガイドから始めるのが最短です。
2. Claudeアプリ
claude.aiでは、有料プランのデフォルトのハイエンドモデルとして利用できます。無料プランではアクセスが制限されています。
3. Claude Code
Claude Codeではトップモデルとして利用できます。ハイエフォートモードを選ぶと、ダイナミックワークフローも利用できます。
4. クラウドプラットフォーム
クラウド経由でも利用できます。
- AWS Bedrock:
anthropic.claude-opus-4-8 - Vertex AI:
claude-opus-4-8 - Microsoft Foundry
ただし、Microsoft Foundryではコンテキストウィンドウが200Kトークンに制限されています。
まず有料APIプランなしで試したい場合は、Opus 4.8を無料で使う方法を参照してください。
既存コードをOpus 4.8へ移行する手順
Opus 4.7から移行する場合、最小変更はモデルIDの差し替えです。
{
- "model": "claude-opus-4-7",
+ "model": "claude-opus-4-8",
"max_tokens": 4096,
"messages": [
{
"role": "user",
"content": "Review this code."
}
]
}
ただし、実運用では次の順番で進めるのが安全です。
Step 1: モデルIDだけを変更する
まずはeffortやthinkingを追加せず、既存リクエストのままモデルIDだけ変更します。
{
"model": "claude-opus-4-8",
"max_tokens": 4096,
"messages": [
{
"role": "user",
"content": "既存の実装をレビューしてください。"
}
]
}
この段階で、既存のパーサーやツール呼び出し処理が壊れないか確認します。
Step 2: 評価セットをリプレイする
本番ログや代表的な入力を使って、Opus 4.7とOpus 4.8の出力を比較します。
見るべき観点は次の通りです。
- 回答品質
- コード差分の安全性
- ツール呼び出し回数
- 出力トークン数
- レイテンシー
- JSONスキーマの安定性
Step 3: effortを追加する
コーディングエージェントや自動レビューでは、まずxhighを試します。
{
"model": "claude-opus-4-8",
"max_tokens": 8192,
"messages": [
{
"role": "user",
"content": "このモジュールをリファクタリングし、変更理由も説明してください。"
}
],
"output_config": {
"effort": "xhigh"
}
}
コストやレイテンシーを抑えたい場合は、評価後にhigh、medium、lowへ下げます。
Step 4: 適応的思考を有効化する
複雑な設計レビューや長い推論が必要な処理では、適応的思考を使います。
{
"model": "claude-opus-4-8",
"max_tokens": 8192,
"thinking": {
"type": "adaptive"
},
"messages": [
{
"role": "user",
"content": "このアーキテクチャのスケーラビリティ上の問題を洗い出してください。"
}
],
"output_config": {
"effort": "high"
}
}
Step 5: 本番環境では段階的に切り替える
いきなり全トラフィックを切り替えず、段階的にロールアウトします。
例:
- 内部テスト
- 1%のトラフィック
- 10%
- 50%
- 100%
それぞれの段階で、次を監視します。
- エラー率
- 平均レイテンシー
- p95 / p99レイテンシー
- 入力・出力トークン数
- ツール呼び出し失敗率
- ユーザー評価または自動評価スコア
Opus 4.8は誰が使うべきか
Opus 4.8は、ワークロードの中でも難しい部分に向いています。
特に次のケースで有効です。
- 長時間のエージェントコーディングを実行している
- サイレントバグのコストが高い
- エージェントが無人で判断する必要がある
- 複数ステップのツール利用をオーケストレーションしている
- 不要なツール呼び出しを減らしたい
- 単純分類ではなく、高度な推論が必要
一方で、次のような用途では、より小さいモデルや低いeffortの方が適している場合があります。
- 大量の単純分類
- 低レイテンシーが最優先の処理
- 短い定型応答
- コスト最優先のバッチ処理
effortの価値は、同じモデルのまま実行モードを切り替えられる点です。タスクごとにeffortを変える設計にすると、品質とコストを調整しやすくなります。
Opus 4.8を本番投入する前にテストする
モデルIDの差し替えは簡単ですが、実際にはレスポンス形状やツール呼び出しの挙動が変わる可能性があります。
特に確認すべきポイントは次です。
- ストリーミングチャンク
- ツール呼び出しの検証
-
output_configのリクエスト形式 - 適応的思考のレスポンス
- JSONパース処理
- リトライ処理
- タイムアウト設定
claude-opus-4-8を本番に出す前に、実際のリクエストをリプレイして、4.7との出力差分を確認してください。
Apidogを使うと、Messages APIのリクエスト検証を1つのワークスペースで管理できます。
実装前の検証では、次のように使えます。
- Opus 4.8エンドポイントをリクエストとして保存する
-
x-api-keyをアタッチして送信する - 同じリクエストで
claude-opus-4-7をclaude-opus-4-8に差し替えて比較する - ストリーミングチャンクをインラインで確認する
- チャンクごとのタイミングを見る
-
effort変更時のスキーマずれをアサーションで検出する - エンドポイントをモックして、クレジットを使わずに下流コードをテストする
Apidogをダウンロードし、Messagesエンドポイントにリクエストを向け、APIガイドのcURLスニペットを貼り付ければ、短時間で検証環境を作れます。
FAQ
Claude Opus 4.8はOpus 4.7より優れていますか?
はい。品質面で改善されています。コード欠陥をより多く検出し、不確実性についてより正直に答え、ツール呼び出しも効率化されています。価格、コンテキストウィンドウ、最大出力は同じです。
Opus 4.8の費用はいくらですか?
標準モードでは、入力100万トークンあたり5ドル、出力100万トークンあたり25ドルです。高速モードでは、2.5倍速い出力で10ドルと50ドルです。詳細は料金内訳を参照してください。
Opus 4.8のコンテキストウィンドウはどれくらいですか?
同期Messages APIでは、入力が1Mトークン、出力が最大128Kトークンです。Batch APIはベータヘッダーを使用すると最大300Kトークンの出力をサポートします。Microsoft Foundryではコンテキストウィンドウは200Kトークンです。
Opus 4.8は拡張思考をサポートしていますか?
適応的思考、つまりthinking: { "type": "adaptive" }を使用します。モデルがリクエストごとに推論量を判断します。手動のbudget_tokens思考はサポートされておらず、400エラーになります。
effortパラメーターとは何ですか?
output_config内の設定です。Claudeがテキスト、ツール呼び出し、推論にどれだけトークンを使うかを制御します。
指定できる値は次の5つです。
lowmediumhighxhighmax
デフォルトはhighです。
Opus 4.8を無料で利用できますか?
無料のAPIティアはありません。ただし、claude.aiの無料プランで制限付きで試すか、トライアルクレジット経由で利用できます。詳細は無料アクセスガイドを参照してください。
ダイナミックワークフローとは何ですか?
Claude Codeの機能です。xhigh effortと会話中のシステムメッセージにより、1回のセッションで多数の並列サブエージェントを起動できます。詳細はダイナミックワークフローガイドに記載されています。


Top comments (0)