Akira

Posted on May 20 • Originally published at apidog.com

Gemini 3.5 Flash 料金: 実際の費用はいくらですか？

#ai #api #gemini #llm

Googleは2026年5月19日にGemini 3.5 Flashを出荷し、「エージェントタスクにおいて他のフロンティアモデルの半額以下」と位置づけています。この記事では、その主張をそのまま受け取るのではなく、トークン単価、無料枠、バッチ割引、実ワークロードでの月額費用に分解して確認します。

今すぐApidogを試す

対象は、Gemini 3.5 FlashをAPIで組み込む開発者です。GPT-5.5やClaude Opus 4.7との比較、バッチモードやキャッシュ入力を使った削減ポイント、プロンプト単位で費用を追跡する実装方針まで整理します。

クイックサマリー

費用タイプ	料金
標準入力	約1.50ドル / 100万トークン
標準出力	約9.00ドル / 100万トークン
バッチモード入力	約0.75ドル / 100万トークン（約50%オフ）
バッチモード出力	約4.50ドル / 100万トークン（約50%オフ）
キャッシュ入力	割引料金（変動）
無料枠（AI Studio）	1日あたり約1,500リクエスト、1分あたり100万トークン、1分あたり15リクエスト
Vertex AI 新規アカウント	90日間で300ドル分のクレジット

料金はGoogleの発表およびアグリゲーターのリストに基づく、2026年5月時点の目安です。予算確定前には必ず公式料金ページを確認してください。

Gemini 3.5 Flashのトークン単価

Gemini 3.5 Flashは従量課金です。入力トークンと出力トークンが別々に課金されます。

ティア	入力（$/100万）	出力（$/100万）
標準	約1.50ドル	約9.00ドル
キャッシュ入力	割引	該当なし
バッチ（非同期）	約0.75ドル	約4.50ドル

実装時に注意すべき点は2つです。

トークンは単語ではありません。 目安として、1,000トークンは英語約750単語です。10万語の小説は約13.3万入力トークンに相当します。
出力は入力より約6倍高価です。 長文回答を許すプロンプトは費用が増えます。JSONなどの構造化出力を指定すると、不要な説明文を減らせます。

例：出力を短く制御するプロンプト

次の問い合わせを分類してください。
出力はJSONのみ。説明文は不要です。

形式:
{
  "category": "billing | technical | account | other",
  "priority": "low | medium | high",
  "summary": "50文字以内"
}

Geminiのバッチモードについては、Gemini APIバッチモードが登場し、50%安くなったも参照してください。

無料枠：支払いなしでできること

AI Studioの無料枠は、Flashでの検証や小規模プロトタイプに十分使えます。

1日あたり1,500リクエスト
1分あたり100万トークン
1分あたり15リクエスト

1日1,500リクエスト以内のサイドプロジェクト、社内プロトタイプ、小規模な自動化であれば、API利用料は0ドルです。

無料枠の特徴：

クレジットカード不要
有料エンドポイントと同じ gemini-3.5-flash モデル
SDKパターンは同じだが、使用するキーが異なる
プロンプトはGoogleのモデル改善に使用される場合がある（AI Studio設定でオプトアウト可能）
クォータは変更される可能性があるため、正確な数値に依存した設計は避ける

設定手順は、Gemini 3.5 Flashを無料で使う方法と無料でGoogle Gemini APIキーを取得する方法を参照してください。

バッチモード：見落としやすい50%割引

リアルタイム応答が不要な処理は、バッチモードに寄せるだけで費用をほぼ半分にできます。

処理の流れ：

最大50,000件のプロンプトをバッチジョブとして送信
Googleが24時間以内に処理
入力・出力の両方がトークン単価で約50%安くなる

向いているワークロード：

大量文書分析
法務レビュー
サポートチケットのトリアージ
コンテンツモデレーション
SaaSダッシュボード向けの一夜コンテンツ生成
履歴データの再処理
事前計算できる分類・要約・抽出

向いていないワークロード：

チャットUI
ユーザー操作を伴うライブエージェントループ
即時応答が必要なユーザー向け処理

プロダクションでは、次のように分けると判断しやすくなります。

処理	推奨
ユーザーが画面で待っている	標準API
夜間にまとめて処理できる	バッチモード
再実行可能な分析ジョブ	バッチモード
SLAが秒単位	標準API

設定の詳細はバッチモードガイドを参照してください。

キャッシュ入力：長い共通プロンプトを安くする

複数リクエストで同じ長いプレフィックスを使う場合は、コンテキストキャッシュを検討します。

典型例：

長いシステムプロンプト
大規模な参照文書
固定の業務ルール
API仕様書
RAGで頻繁に再利用されるチャンク

パターン：

10万トークンの参照文書を一度キャッシュする
数千件のクエリで再利用する
新しい質問部分だけ通常単価で支払う
キャッシュ済みプレフィックスは割引対象になる

RAGスタイルのアプリケーションでは、同じチャンクが複数クエリで返されるため、入力コストを30〜60%削減できる可能性があります。実際の削減額はキャッシュヒット率に依存します。

実ワークロード別の費用シナリオ

以下は標準料金での概算です。

計算式は共通です。

入力費用 = 入力トークン数 × 1.50 / 1,000,000
出力費用 = 出力トークン数 × 9.00 / 1,000,000

シナリオ1：顧客サポートチャットボット

前提：

1日あたり10,000件のユーザーメッセージ
平均200入力トークン
平均400出力トークン

1日の費用：

入力：10,000 × 200 × 1.50 / 1,000,000 = 3.00ドル/日
出力：10,000 × 400 × 9.00 / 1,000,000 = 36.00ドル/日
合計：約39ドル/日、約1,170ドル/月

バッチ応答を許容できる処理なら、月額約585ドルまで下がります。システムプロンプトにコンテキストキャッシュを使えば、さらに20〜30%削減できる可能性があります。

シナリオ2：ドキュメントQ&A SaaS

前提：

1日あたり1,000件のドキュメント
各ドキュメントは平均3万トークン
各Q&Aは500出力トークン

1日の費用：

入力：1,000 × 30,000 × 1.50 / 1,000,000 = 45.00ドル/日
出力：1,000 × 500 × 9.00 / 1,000,000 = 4.50ドル/日
合計：約50ドル/日、約1,500ドル/月

Flashの100万トークンコンテキストが効くのはこのケースです。ドキュメント全体を送れるため、チャンキングインフラを減らせます。フラッグシップモデルでチャンク化RAGを組むより、API費用とインフラ費用の両方を抑えやすくなります。

シナリオ3：長時間稼働する自律エージェント

前提：

1回の実行 = 約50ターン
各ターン平均5,000入力トークン、1,000出力トークン
1日あたり200回実行

1実行あたり：

入力：50 × 5,000 × 1.50 / 1,000,000 = 0.375ドル
出力：50 × 1,000 × 9.00 / 1,000,000 = 0.45ドル
合計：約0.83ドル/実行

1日の合計：

200 × 0.83 = 約165ドル/日

月額では約4,950ドルです。

比較として、Opus 4.7（100万トークンあたり約15ドル/75ドル）で同じワークロードを実行すると、1実行あたり約25ドル、1日あたり約5,000ドルになります。Googleが「エージェントタスク」で費用差を強調する理由はここにあります。

シナリオ4：グラフ抽出パイプライン

前提：

1日あたり5,000枚のダッシュボードスクリーンショット
各画像入力：約1,500トークン相当
出力：300トークンの構造化JSON

1日の費用：

入力：5,000 × 1,500 × 1.50 / 1,000,000 = 11.25ドル/日
出力：5,000 × 300 × 9.00 / 1,000,000 = 13.50ドル/日
合計：約25ドル/日、約750ドル/月

バッチモードに移すと、月額約375ドルです。CharXivの推論が84.2%という点は、品質を保ったままコストを下げられる可能性を示しています。

シナリオ5：大量コンテンツ生成

前提：

1日あたり10万件の短い記事を生成
各記事につき500入力トークン
各記事につき2,000出力トークン

1日の費用：

入力：100,000 × 500 × 1.50 / 1,000,000 = 75ドル/日
出力：100,000 × 2,000 × 9.00 / 1,000,000 = 1,800ドル/日
合計：約1,875ドル/日、約56,250ドル/月

バッチモードに移行すると、月額は約2万8千ドルまで下がります。この規模では、定型的な生成は3.1 Flash-Liteにルーティングし、難しい生成だけFlashに送る構成を検証すべきです。

GPT-5.5およびOpus 4.7との費用比較

モデル	入力（$/100万）	出力（$/100万）	Flashに対する倍率
Gemini 3.5 Flash	約1.50ドル	約9.00ドル	1倍
GPT-5.5	約10ドル	約30ドル	入力6.7倍、出力3.3倍
Claude Opus 4.7	約15ドル	約75ドル	入力10倍、出力8.3倍

シナリオ1の顧客サポートチャットを各モデルで実行した場合：

Flash：39ドル/日
GPT-5.5：約140ドル/日（3.6倍高価）
Opus 4.7：約330ドル/日（8.5倍高価）

フラッグシップモデルは最難関タスクで品質が上がる可能性があります。しかし、日常的な分類、要約、抽出、問い合わせ応答では、Flashの費用対効果が高くなります。

詳細はGPT-5.5の価格と3モデル比較を参照してください。

他のGemini派生モデルとの費用比較

モデル	入力（$/100万）	出力（$/100万）	使用場面
Gemini 3.1 Flash-Lite	約0.40ドル	約2.00ドル	大量の定型作業
Gemini 3 Flash	約0.50ドル	約3.00ドル	旧世代、依然として堅実
Gemini 3.1 Pro	約2.00ドル	約12.00ドル	3.5 Pro登場以前の推論重視作業
Gemini 3.5 Flash	約1.50ドル	約9.00ドル	多くのワークロードの新しいデフォルト
Gemini 3.5 Pro（2026年6月）	未定	未定	最難関の推論タスク

Flashは3.x Flashの先行モデルより高価ですが、以前のProティアより安く使える位置づけです。多くのチームにとっては、3.x Flashより性能を重視しつつ、Proより費用を抑える現実的な選択肢になります。

Vertex AI価格設定（本番環境）

AI StudioではなくVertex AI経由でFlashを呼び出す場合、トークン単価は同じです。違いは、認証、監査、運用管理です。

Vertex AIを選ぶ理由：

APIキーではなくサービスアカウント認証
Cloud Loggingでの監査ログ
データ所在地管理
無料枠はないが、新規アカウントの300ドルクレジットで約90日間の適度な利用をカバー
規模に応じたカスタムクォータの交渉余地

一般的な移行パスは次の通りです。

AI Studio無料枠でプロトタイプ
AI Studio有料版で小規模本番運用
監査ログ、データ所在地、組織管理が必要になったらVertex AIへ移行

モデルの動作は同じなので、まずは無料枠でプロンプトとレスポンス形式を固めるのが効率的です。

費用最適化の実装チェックリスト

Flashの請求額を下げるために、次の6つを実装します。

リアルタイム不要な処理はバッチモードへ移す

品質を維持したまま約50%削減できます。
長い静的プレフィックスをキャッシュする

システムプロンプト、参照文書、業務ルールはキャッシュ候補です。
構造化JSON出力を使う

自由形式の長文を避け、出力トークンを制御します。
タスクの難易度でモデルをルーティングする

簡単なタスクはFlash-Lite、標準タスクはFlash、非常に難しいタスクは3.5 Pro登場後に検証します。
入力を事前検証する

壊れたリクエストでトークンを消費しないようにします。Apidogを使うと、APIに到達する前にリクエスト形状を検証できます。
プロンプトごとの費用を記録する

入力/出力トークン数、モデル名、リクエストID、ユーザーID、機能名をログに残します。

ログ設計の例：

{
  "request_id": "req_123",
  "feature": "support_reply",
  "model": "gemini-3.5-flash",
  "input_tokens": 820,
  "output_tokens": 310,
  "estimated_cost_usd": 0.00402,
  "latency_ms": 1240
}

月額費用の推定式：

月額費用 =
  (月間入力トークン数 × 入力単価 / 1,000,000)
+ (月間出力トークン数 × 出力単価 / 1,000,000)

プロンプト検証フローを作る場合は、Apidogをダウンロードし、Geminiエンドポイントをテストシナリオとして保存し、応答JSONの形状にアサーションを追加します。デバッグ中に壊れたリクエストを何度も実行すると、無料枠や予算をすぐに消費します。

無料枠では不十分になるタイミング

有料版Flashへ移行する目安は次の3つです。

1日1,500リクエストに複数日連続で到達している

クォータ回避に開発時間を使うより、従量課金へ移る方が安い場合があります。
より高いRPMスループットが必要

無料枠は1分あたり15リクエストが上限です。有料枠ではより高いスループットを使えます。
データ所在地または監査ログが必要

Vertex AIへの移行を検討してください。

多くのチームでは、月額50〜200ドル程度の有料Flash利用で、無料枠の制限回避にかかる作業を減らせます。

価格設定のリスクと注意点

費用計算に影響する可能性がある点は3つです。

クォータの変更

Googleはモデルの提供状況に応じて無料枠を変更する可能性があります。1日1,500リクエストを前提に固定したアーキテクチャは避けてください。
Proのリリース価格

2026年6月に3.5 Proが登場する際、Flashの位置づけや価格が変わる可能性があります。
地域による追加料金

Vertex AIの価格はリージョンにより異なります。米国中部を基準に、一部地域では10〜20%程度のプレミアムが発生する可能性があります。

初日から費用アラートを設定してください。AI Studioではプロジェクトのクォータページ、Vertex AIではCloud Billingで日次予算上限を設定できます。

結論

Gemini 3.5 Flashは、2026年の多くのプロダクションAIワークロードで最初に検証すべきモデルです。標準料金は100万トークンあたり入力約1.50ドル、出力約9.00ドルで、他のフロンティアクラスの選択肢より安価です。さらに、バッチモードとコンテキストキャッシュを組み合わせると、実効コストを下げられます。

Flashだけで足りない場合は、モデルを1つに固定せず、タスクの難易度でルーティングします。大部分はFlash、難しいタスクはGPT-5.5やOpus 4.7のようなフラッグシップモデルに送る構成が現実的です。

実装手順：

Apidogをダウンロードし、Gemini 3.5 Flashエンドポイントをリクエストとして保存する
実際のプロンプト20件で、Flashと現在のモデルを比較する
入力トークン数、出力トークン数、レイテンシー、失敗率を記録する
月額費用を推定する
Flashで代替できる処理と、上位モデルが必要な処理を分ける
リアルタイム不要な処理をバッチモードへ移す

この検証は通常2日程度で完了し、1回の請求サイクルで元が取れる可能性があります。

DEV Community

Gemini 3.5 Flash 料金: 実際の費用はいくらですか？

クイックサマリー

Gemini 3.5 Flashのトークン単価

無料枠：支払いなしでできること

バッチモード：見落としやすい50%割引

キャッシュ入力：長い共通プロンプトを安くする

実ワークロード別の費用シナリオ

シナリオ1：顧客サポートチャットボット

シナリオ2：ドキュメントQ&A SaaS

シナリオ3：長時間稼働する自律エージェント

シナリオ4：グラフ抽出パイプライン

シナリオ5：大量コンテンツ生成

GPT-5.5およびOpus 4.7との費用比較

他のGemini派生モデルとの費用比較

Vertex AI価格設定（本番環境）

費用最適化の実装チェックリスト

無料枠では不十分になるタイミング

価格設定のリスクと注意点

結論

Top comments (0)