Akira

Posted on Jun 4 • Originally published at apidog.com

Gemma 4 12B とは？

Googleは2026年6月3日にGemma 4 12Bをリリースしました。Gemma 4 12Bは、テキスト、画像、音声、ビデオを入力として扱える119.5億パラメータのオープンウェイトモデルです。16GBメモリ搭載のノートパソコンでの実行を想定しており、独立したビジョンエンコーダやオーディオエンコーダなしでネイティブ音声入力に対応する点が特徴です。

今すぐApidogを試す

Gemma 4 12Bが他のマルチモーダルモデルと異なるのは、入力処理の構成です。多くのモデルはビジョンエンコーダやオーディオエンコーダを言語モデルに接続しますが、Gemma 4 12Bは生の画像パッチと音声波形を直接モデルへ入力します。結果として、4種類の入力を扱える単一の12Bモデルを、オフラインかつApache 2.0ライセンスで利用できます。

この記事では、Gemma 4 12Bの位置付け、アーキテクチャ、使いどころ、ローカル実行時に確認すべきポイントを整理します。すぐに試したい場合は、付随ガイド「Gemma 4 12Bを無料で使う方法」も参照してください。

Gemma 4 12Bの概要

仕様	値
リリース日	2026年6月3日
パラメータ数	119.5億（密結合）
入力	テキスト、画像、音声、ビデオ
出力	テキスト
コンテキストウィンドウ	256Kトークン
アーキテクチャ	エンコーダフリー統合マルチモーダル
ライセンス	Apache 2.0
動作環境	16GB VRAMまたはユニファイドメモリ（4ビット量子化で約8GB）
バリアント	`google/gemma-4-12B`（ベース）、`google/gemma-4-12B-it`（指示チューニング済み）

要点

Gemma 4 12Bは、Google DeepMindが開発した密結合の約120億パラメータのオープンモデルです。テキスト、画像、音声、ビデオを入力として受け取り、テキストを出力します。

主な特徴は次の通りです。

256Kトークンの長いコンテキストウィンドウ
ネイティブなツール呼び出し
オプションの段階的推論モード
コンシューマーハードウェアでのローカル実行を想定
Apache 2.0ライセンス

Gemma 4ラインナップでは、12Bは小型のE4Bと、より大規模な26B Mixture-of-Expertsモデルの中間に位置します。Googleは、26Bモデルの半分以下のメモリ使用量で、いくつかのベンチマークでは26Bに近い品質を実現すると説明しています。

Gemma 4ファミリーにおける12Bの位置付け

Gemma 4は段階的にリリースされました。E2B、E4B、26B、31Bは2026年3月31日に登場し、12Bは6月3日に追加されました。

モデル	サイズ	コンテキスト	備考
Gemma 4 E2B	実質23億（生51億）	128K	オンデバイス、音声入力
Gemma 4 E4B	実質45億（生80億）	128K	コンパクト、音声入力
Gemma 4 12B	119.5億（密結合）	256K	エンコーダフリー、音声入力
Gemma 4 26B A4B	アクティブ40億 / 合計260億 (MoE)	256K	Mixture-of-experts
Gemma 4 31B	310億（密結合）	256K	最先端性能

12Bは、Gemma 4ファミリーで唯一のエンコーダフリー設計モデルです。他のモデルは従来のビジョンエンコーダを維持しており、小型の2モデルではコンフォーマーオーディオエンコーダも使われています。

他のオープンモデルとの比較は、MiniMax M3、DeepSeek V4、Qwen 3.7の比較と、オープンウェイト価格競争も参考になります。

「エンコーダフリー」が意味すること

一般的なマルチモーダルモデルは、次のような構成で入力を処理します。

ビジョンエンコーダが画像を埋め込みに変換する
オーディオエンコーダが音声を埋め込みに変換する
プロジェクターがそれらを言語モデルの空間へマッピングする

この構成では、複数のコンポーネントをロードし、調整し、メモリ上に保持する必要があります。

Gemma 4 12Bではこの構成を簡略化しています。

ビジョン：軽量な埋め込みモジュールが、生の画像パッチをモデルの埋め込み空間へ直接投影します。
オーディオ：オーディオエンコーダを使わず、生の音声をテキストトークンと同じ次元空間へ投影します。

つまり、画像も音声もテキストも、同じモデルバックボーンに流れ込みます。1つのモデル、1組の重みで、複数のモダリティをトークンとして扱う設計です。

効率化のために、以下の仕組みも使われています。

レイヤーごとの埋め込み（PLE）

各デコーダーレイヤーが専用の小さな埋め込みを受け取り、トークン識別ルックアップとコンテキスト認識型投影を組み合わせます。
共有KVキャッシュ

最後のいくつかのレイヤーは、キーと値のテンソルを再計算せず、以前のレイヤーから再利用します。長いコンテキストやオンデバイス実行時のメモリ使用量を抑えるための仕組みです。

また、Googleは投機的デコーディング向けにMulti-Token Prediction（MTP）ドラフターも提供しています。これにより、出力品質を変えずにエンドツーエンドの推論を約3倍高速化できるとされています。

ネイティブオーディオとマルチモーダル入力

Gemma 4 12Bは、テキストとビジョンだけでなく、音声も同じモデル内でネイティブに処理します。これにより、次のようなユースケースを1つのモデルで扱えます。

自動音声認識と文字起こし
話者ダイアライゼーション
音に関する質問応答
音声付きビデオの理解
画像キャプション生成
オブジェクト検出やUI検出
視覚的推論

実装時は、入力順序に注意が必要です。チャットテンプレートでは、一般にテキストプロンプトの前に画像コンテンツを置き、その後に音声を渡す形式が期待されます。出力は常にテキストです。

Gemma 4 12Bの性能

以下は、Hugging Faceのモデルカードに掲載されている、指示チューニング済みgemma-4-12B-itの公開スコアです。

ベンチマーク	Gemma 4 12B-it
MMLU Pro（推論）	77.2%
AIME 2026（数学、ツールなし）	77.5%
GPQA Diamond（科学）	78.8%
LiveCodeBench v6（コーディング）	72.0%
Codeforces（ELO）	1659
MMMU Pro（ビジョン）	69.1%
MATH-Vision	79.7%
MRCR v2、128K、8ニードル（長コンテキスト）	43.4%

ファミリー内で比較すると、12BはE4Bを大きく上回り、26B A4Bに近いスコアを示します。

ベンチマーク	E4B	12B	26B A4B	31B
MMLU Pro	69.4%	77.2%	82.6%	85.2%
AIME 2026	42.5%	77.5%	88.3%	89.2%
GPQA Diamond	58.6%	78.8%	82.3%	84.3%
LiveCodeBench v6	52.0%	72.0%	77.1%	80.0%

実装視点では、12Bは「ローカル実行できる範囲で、できるだけ高い品質を確保したい」場合の候補になります。4Bクラスより高性能で、26Bや31Bより扱いやすい中間サイズです。

Gemma 3からの主な変更点

Gemma 3を使っていた場合、Gemma 4 12Bで特に重要な違いは次の4つです。

ネイティブオーディオ

Gemma 3はテキストとビジョンが中心でした。Gemma 4 12Bでは、音声と音声付きビデオを扱えます。
エンコーダフリー設計

ビジョンエンコーダやオーディオエンコーダを別途ロードする必要がありません。
256Kコンテキスト

長いドキュメント、議事録、複数ファイルのコード解析に使いやすくなります。
Apache 2.0

以前のGemmaライセンスから、より一般的なApache 2.0へ移行しています。商用利用や再配布の検討がしやすくなります。

実装で使えるユースケース

Gemma 4 12Bは、クラウドAPIに依存せず、デバイス上で処理したいワークロードに向いています。

画面認識とマイク入力を組み合わせたオフラインアシスタント
会議音声の文字起こし、話者分離、要約
PDF、スクリーンショット、音声をまとめて処理するメディアパイプライン
関数呼び出しやツール使用を含むエージェントワークフロー
ローカルでのコード補完、リファクタリング、コードレビュー支援

ローカル実行時は、まず次の点を確認すると実装が進めやすくなります。

使用するランナーが対象モデル形式に対応しているか
量子化形式とメモリ使用量
チャットテンプレートの入力順序
マルチモーダル入力の渡し方
レスポンスJSONの形式
ツール呼び出しのスキーマ

Ollamaやllama.cppのようなランナーを使う場合、アプリケーション側からはローカルHTTPエンドポイントとして扱えることがあります。その場合は、最初に最小リクエストで疎通確認します。

curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "your-local-gemma-model",
    "messages": [
      {
        "role": "user",
        "content": "このモデルで何ができますか？"
      }
    ]
  }'

アプリケーションへ組み込む前に、リクエストとレスポンス形式を固定しておくことが重要です。ApidogのようなAPIツールを使うと、ローカルエンドポイントを保存し、サンプルプロンプトを送信し、JSONレスポンスを確認できます。Apidogを無料でダウンロードして、ローカルサーバーに対してすぐに試せます。詳細は無料使用ガイドを参照してください。

ライセンスとApache 2.0

Gemma 4 12BはApache 2.0ライセンスで公開されています。

実務上のポイントは次の通りです。

商用利用が可能
変更、ファインチューニング、再配布が可能
クローズドソース製品内で実行可能
生成物は利用者側に帰属

以前のGemmaリリースではGoogle独自の利用規約が使われていました。Gemma 4でApache 2.0に移行したことで、企業内でのレビューや製品組み込みを検討しやすくなっています。

必要なハードウェア

Googleが想定するターゲットは、16GBのVRAMまたはApple方式のユニファイドメモリを搭載したマシンです。量子化により、さらにメモリ使用量を抑えられます。

フル品質：約16GB
8ビット：約14GB
4ビット（Q4_K_M）：約8GB（Ollamaのデフォルト）

そのため、Gemma 4 12Bは次のような環境で検討できます。

16GB MacBook
主流のゲーミングGPU
ミドルレンジのワークステーション
4ビット量子化を使えるローカル推論環境

メモリが足りない場合は、E2BまたはE4Bのような小型モデルを選択するのが現実的です。

ローカル導入時のチェックリスト

実装に入る前に、次のチェックリストを使うと失敗を減らせます。

[ ] モデルのライセンスを確認した
[ ] ベース版と-it版の違いを理解した
[ ] 実行環境のVRAMまたはメモリ容量を確認した
[ ] 量子化形式を決めた
[ ] テキスト入力で疎通確認した
[ ] 画像入力の形式を確認した
[ ] 音声入力の形式を確認した
[ ] チャットテンプレートの入力順序を確認した
[ ] レスポンスJSONを保存した
[ ] アプリ側のエラーハンドリングを実装した

特に、マルチモーダル入力はランナーやAPIラッパーによって渡し方が異なるため、最初からアプリ本体に組み込まず、APIクライアントや小さな検証スクリプトで確認するのがおすすめです。

留意すべき制限事項

Googleはモデルカードで、以下のようなトレードオフに言及しています。

不正確または古い事実を生成する可能性がある
トレーニングデータ由来の偏りを反映する可能性がある
皮肉、ニュアンス、比喩表現の処理は一貫しない場合がある
常識的な推論には限界がある
出力品質はプロンプトとコンテキストに依存する

Gemma 4 12Bは、最も難しい推論タスクで最先端のクラウドモデルを置き換えるためのモデルではありません。主な価値は、データを外部に送らず、ローカル環境で高性能なマルチモーダルAIを動かせる点にあります。

よくある質問

Gemma 4 12Bは無料ですか？

はい。重みはApache 2.0で公開されており、Hugging FaceやKaggleから無料でダウンロードできます。費用が発生するのは、実行するハードウェアまたはクラウド環境です。詳しくはGemma 4 12Bを無料で使う方法を参照してください。

Gemma 4 12Bは本当に音声を理解できますか？

はい。生の音声を入力として受け取り、文字起こし、話者識別、音に関する質問応答を行えます。個別の音声モデルを経由せず、ネイティブに扱う点が特徴です。

gemma-4-12Bとgemma-4-12B-itの違いは何ですか？

gemma-4-12Bはベースモデルです。gemma-4-12B-itは、チャット、ツール使用、指示追従向けに指示チューニングされたモデルです。通常のアプリケーション実装では、-it版を選ぶケースが多くなります。

12Bは26Bや31Bとどう違いますか？

12Bは密結合かつエンコーダフリーで、16GBクラスのマシン向けにチューニングされています。26BはMixture-of-Expertsモデルで、31Bはより大規模な密結合モデルです。大型モデルはベンチマークで高いスコアを出しますが、より多くのメモリを必要とします。

Gemma 4 12Bはツール呼び出しをサポートしていますか？

はい。テキストおよびマルチモーダルな関数呼び出しをサポートしています。また、段階的な推論のためのオプションの思考モードも備えているため、エージェントワークフローに利用できます。

Gemini 3.5と比較するとどうですか？

目的が異なります。Gemini 3.5はGoogleがホストする最先端モデルです。詳細はGemini 3.5とは何かを参照してください。Gemma 4 12Bは自分で実行するオープンモデルであり、プライバシー、オフライン利用、トークンごとのコストを重視する場合に適しています。

DEV Community