Emre Demir

Posted on Jun 4 • Originally published at apidog.com

Was ist Gemma 4 12B

Google hat Gemma 4 12B am 3. Juni 2026 ausgeliefert. Es ist ein Open-Weights-Modell mit 11,95 Milliarden Parametern, das Text, Bilder, Audio und Video liest und auf einen Laptop mit 16 GB Arbeitsspeicher passt. Das wichtigste Detail: Es ist das erste mittelgroße Modell mit nativer Audioeingabe, und es erreicht dies ohne separaten Bild- oder Audiokodierer.

Teste Apidog noch heute

Dieser Architekturunterschied ist praktisch relevant: Viele multimodale Modelle hängen einen Bildkodierer und einen Audiokodierer an ein Sprachmodell. Gemma 4 12B verzichtet auf beides und speist rohe Bildausschnitte sowie Audiowellenformen direkt in das Modell ein. Ergebnis: eine einzelne 12B-Datei, die vier Eingabetypen verarbeitet, offline läuft und unter Apache 2.0 kommerziell nutzbar ist.

In diesem Artikel erfahren Sie, wo Gemma 4 12B in der Gemma-4-Familie steht, welche Hardware Sie benötigen und welche Workflows sich damit lokal bauen lassen. Wenn Sie direkt starten möchten, springen Sie zur Begleitanleitung über die kostenlose Nutzung von Gemma 4 12B.

Gemma 4 12B auf einen Blick

Spezifikation	Wert
Veröffentlicht	3. Juni 2026
Parameter	11,95 Mrd. dicht
Eingaben	Text, Bild, Audio, Video
Ausgabe	Text
Kontextfenster	256K Token
Architektur	Encoder-freie, vereinheitlichte multimodale Architektur
Lizenz	Apache 2.0
Läuft auf	16 GB VRAM oder Unified Memory, ca. 8 GB bei 4-Bit
Varianten	`google/gemma-4-12B` Basis, `google/gemma-4-12B-it` instruction-tuned

Kurzfassung für Entwickler

Gemma 4 12B ist ein dichtes Open-Modell von Google DeepMind mit 12 Milliarden Parametern. Es akzeptiert Text, Bilder, Audio und Video als Eingabe und gibt Text aus. Für lokale Anwendungen sind vor allem diese Punkte relevant:

256K-Kontextfenster für lange Dokumente, Transkripte und Codebasen
native Audioeingabe ohne separaten Audiokodierer
multimodale Eingaben in einem Modell
Apache-2.0-Lizenz für kommerzielle Nutzung
Betrieb auf Consumer-Hardware mit Quantisierung
Unterstützung für Werkzeugaufrufe und optionalen Denkmodus

Gemma 4 12B sitzt in der Mitte der Gemma 4-Reihe. Google beschreibt es als Brücke zwischen dem Edge-freundlichen E4B-Modell und dem größeren 26B-Mixture-of-Experts-Modell: deutlich mehr Qualität als die kleineren Modelle, aber mit weniger Speicherbedarf als die größeren Varianten.

Wo Gemma 4 12B in die Gemma-4-Familie passt

Gemma 4 wurde nicht als einzelnes Modell veröffentlicht. E2B, E4B, 26B und 31B kamen am 31. März 2026. Das 12B-Modell wurde am 3. Juni ergänzt.

Modell	Größe	Kontext	Anmerkungen
Gemma 4 E2B	2,3 Mrd. effektiv, 5,1 Mrd. roh	128K	On-Device, Audioeingabe
Gemma 4 E4B	4,5 Mrd. effektiv, 8 Mrd. roh	128K	Kompakt, Audioeingabe
Gemma 4 12B	11,95 Mrd. dicht	256K	Encoder-frei, Audioeingabe
Gemma 4 26B A4B	4 Mrd. aktiv, 26 Mrd. gesamt	256K	Mixture-of-Experts
Gemma 4 31B	31 Mrd. dicht	256K	Spitzenleistung

Das 12B ist das einzige Modell der Familie mit Encoder-freiem Design. Die anderen Varianten behalten einen traditionellen Bildkodierer, und die kleineren Modelle nutzen zusätzlich einen Conformer-Audiokodierer. Wenn Sie multimodale KI lokal testen wollen, ist 12B deshalb der interessanteste Einstiegspunkt.

Für Vergleiche mit anderen offenen Modellen siehe auch den Vergleich von MiniMax M3, DeepSeek V4 und Qwen 3.7 und den Überblick zum Preiskampf bei Open-Weight-Modellen.

Was „Encoder-frei“ praktisch bedeutet

Klassische multimodale Pipelines bestehen meist aus mehreren Komponenten:

Bildkodierer wandelt Bilder in Embeddings um.
Audiokodierer wandelt Audio in Embeddings um.
Projektor bringt diese Embeddings in den Raum des Sprachmodells.
Sprachmodell verarbeitet alles als Kontext.

Das erhöht Speicherbedarf, Latenz und Integrationsaufwand.

Gemma 4 12B entfernt diese separaten Encoder:

Bild: Ein leichtgewichtiges Embedding-Modul projiziert rohe Bildausschnitte direkt in den Embedding-Raum des Modells.
Audio: Rohes Audio wird in denselben dimensionalen Raum wie Text-Tokens projiziert.
Text, Bild und Audio laufen anschließend durch dasselbe Sprachmodell-Backbone.

Für Entwickler bedeutet das: weniger bewegliche Teile, eine einheitlichere Modelloberfläche und ein einfacherer lokaler Deployment-Pfad.

Zusätzlich nutzt das Modell zwei Effizienztechniken:

Schichtspezifische Embeddings, PLE: Jede Decoder-Schicht erhält ein kleines dediziertes Embedding, das Token-Identität und kontextbewusste Projektion kombiniert.
Gemeinsamer KV-Cache: Spätere Schichten können Key-Value-Tensoren aus früheren Schichten wiederverwenden, was Speicher bei langen Kontexten reduziert.

Google liefert außerdem einen Multi-Token-Prediction-Drafter für spekulative Dekodierung. Dieser kann die End-to-End-Inferenz laut Google um bis zu etwa das Dreifache beschleunigen, ohne die Ausgabequalität zu verändern.

Native Audio- und vollständige Multimodalität

Viele offene Modelle können Bilder lesen. Gemma 4 12B erweitert den lokalen Workflow um native Audioverarbeitung im selben Modell.

Typische Aufgaben:

automatische Spracherkennung und Transkription
Sprecherdiarisierung, also „wer hat wann gesprochen“
Fragen zu Nicht-Sprachgeräuschen
Videoverständnis mit Audio statt nur Einzelbildern
Bildaufgaben wie Captioning, UI-Erkennung, Objekterkennung und visuelles Schlussfolgern

Wichtig bei gemischten Eingaben: Die Chat-Vorlage erwartet Bildinhalte vor der Textaufforderung und Audio danach. Das Modell gibt immer Text zurück.

Ein sinnvoller Prompt-Aufbau sieht konzeptionell so aus:

[Bildinhalt]
Beschreibe die sichtbaren UI-Elemente und extrahiere relevante Fehlermeldungen.
[Audioinhalt]
Fasse zusätzlich zusammen, was im Audiokommentar gesagt wird.

Benchmark-Ergebnisse

Die folgenden Werte stammen aus der Hugging-Face-Modellkarte für gemma-4-12B-it.

Benchmark	Gemma 4 12B-it
MMLU Pro, Schlussfolgern	77.2%
AIME 2026, Mathematik ohne Werkzeuge	77.5%
GPQA Diamond, Wissenschaft	78.8%
LiveCodeBench v6, Coding	72.0%
Codeforces	1659 ELO
MMMU Pro, Vision	69.1%
MATH-Vision	79.7%
MRCR v2, 128K, 8-Nadel, langer Kontext	43.4%

Im Familienvergleich:

Benchmark	E4B	12B	26B A4B	31B
MMLU Pro	69.4%	77.2%	82.6%	85.2%
AIME 2026	42.5%	77.5%	88.3%	89.2%
GPQA Diamond	58.6%	78.8%	82.3%	84.3%
LiveCodeBench v6	52.0%	72.0%	77.1%	80.0%

Das Muster ist klar: 12B liegt deutlich über E4B und kommt in mehreren Benchmarks in die Nähe des 26B-MoE-Modells. Der Kompromiss ist damit genau der, den Google bewirbt: ein großer Teil der Qualität des größeren Modells, aber auf Hardware, die viele Entwickler bereits besitzen.

Was ist neu gegenüber Gemma 3?

Wenn Sie Gemma 3 bereits genutzt haben, sind diese Änderungen wichtig:

Native Audioeingabe

Gemma 3 war auf Text und Bild ausgelegt. Gemma 4 12B ergänzt Ton und Video mit Audio.
Encoder-freies Design

Es gibt keinen separaten Bild- oder Audiokodierer, den Sie zusätzlich laden und betreiben müssen.
256K Kontext

Das gibt deutlich mehr Spielraum für lange Dokumente, Transkripte, Logs und Code aus mehreren Dateien.
Apache 2.0

Frühere Gemma-Versionen nutzten eine eigene Gemma-Lizenz mit Nutzungsbedingungen. Gemma 4 wechselt zu Apache 2.0, was kommerzielle Nutzung und Weiterverteilung einfacher macht.

Was Sie damit bauen können

Gemma 4 12B eignet sich vor allem für lokale und datennahe Workflows:

Offline-Assistenten

Ein lokaler Assistent kann Bildschirm, Screenshots und Mikrofoneingaben verarbeiten, ohne Daten an einen Cloud-Dienst zu senden.
Meeting- und Call-Tools

Lokale Transkription, Sprechertrennung und Zusammenfassung für interne Gespräche.
Dokument- und Medien-Pipelines

Kombinieren Sie PDFs, Screenshots, UI-Bilder und Audio in einem Prompt.
Agenten-Workflows

Durch Funktionsaufrufe und Werkzeugnutzung kann das Modell planen und Aktionen auslösen.
Programmierhilfe

Mit 72.0% auf LiveCodeBench v6 ist es für lokale Autovervollständigung, Refactoring und Codeanalyse interessant.

Lokalen Modell-Endpunkt testen

Wenn Sie Gemma 4 12B über einen lokalen Runner wie Ollama oder llama.cpp bereitstellen, sollten Sie zuerst die HTTP-Schnittstelle validieren, bevor Sie sie in Ihre App einbauen.

Ein typischer Testablauf:

Modell lokal starten.
Chat-Endpunkt identifizieren.
Beispiel-Prompt senden.
JSON-Antwort prüfen.
Fehlerfälle dokumentieren.
Erst danach SDK, Backend oder Agent anbinden.

Beispiel für einen lokalen Chat-Request, wenn Ihr Runner eine OpenAI-kompatible API bereitstellt:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma-4-12B-it",
    "messages": [
      {
        "role": "user",
        "content": "Fasse diesen Text in drei technischen Stichpunkten zusammen."
      }
    ]
  }'

Für die Integration in eine Anwendung sollten Sie zusätzlich festlegen:

{
  "model": "gemma-4-12B-it",
  "input_modalities": ["text", "image", "audio"],
  "output": "text",
  "max_context_tokens": 256000,
  "requires_local_runtime": true
}

Wenn Sie den lokalen Endpunkt dokumentieren oder wiederholt testen möchten, können Sie Apidog verwenden. Speichern Sie den lokalen API-Endpunkt, senden Sie Beispiel-Prompts und prüfen Sie das JSON, bevor Sie produktiven Code darauf aufbauen. Sie können Apidog kostenlos herunterladen und auf Ihren lokalen Server richten. Weitere Details stehen in der kostenlosen Nutzungsanleitung.

Lizenz: Was Apache 2.0 ermöglicht

Gemma 4 12B wird unter Apache 2.0 veröffentlicht. Praktisch heißt das:

Sie können das Modell kommerziell nutzen.
Sie können es modifizieren und feinabstimmen.
Sie können abgeleitete Versionen weiterverbreiten.
Sie können es in Closed-Source-Produkten verwenden.
Sie behalten Ihre Ausgaben.

Das ist ein klarer Wechsel gegenüber früheren Gemma-Lizenzen mit eigenen Nutzungsbedingungen. Für viele Teams ist Apache 2.0 einfacher in der rechtlichen Prüfung, weil die Lizenz in Open-Source-Infrastruktur weit verbreitet ist.

Benötigte Hardware

Google zielt auf Systeme mit 16 GB VRAM oder Unified Memory. Quantisierung reduziert den Bedarf:

Variante	Grober Speicherbedarf
Volle Qualität	ca. 16 GB
8-Bit	ca. 14 GB
4-Bit, Q4_K_M	ca. 8 GB

Damit ist Gemma 4 12B für viele Setups erreichbar:

Gaming-GPU mit ausreichend VRAM
16-GB-MacBook mit Unified Memory
Mittelklasse-Workstation
lokaler Server mit quantisiertem Modell

Wenn Ihre Hardware knapper ist, sind E2B oder E4B die naheliegenden Alternativen.

Einschränkungen, die Sie einplanen sollten

Gemma 4 12B ist ein offenes 12B-Modell und hat die üblichen Grenzen:

Es kann falsche oder veraltete Fakten ausgeben.
Es kann Bias aus Trainingsdaten widerspiegeln.
Sarkasmus, Nuancen und bildliche Sprache funktionieren nicht immer zuverlässig.
Schlussfolgern hat Grenzen, besonders bei sehr komplexen Aufgaben.
Die Ausgabequalität hängt stark von Prompt, Kontext und Eingabereihenfolge ab.

Für produktive Systeme sollten Sie deshalb Validierung einbauen:

1. Modellantwort erzeugen
2. Ausgabe gegen Regeln oder Quellen prüfen
3. kritische Fakten markieren
4. bei Unsicherheit Mensch oder externes Tool einbeziehen
5. Antwort erst danach weiterverarbeiten

Der Punkt von Gemma 4 12B ist nicht, ein führendes Cloud-Modell in jeder Spitzenaufgabe zu ersetzen. Der Punkt ist eine fähige multimodale KI, die lokal läuft und dort arbeitet, wo Ihre Daten bereits liegen.

FAQ

Ist Gemma 4 12B kostenlos?

Ja. Die Gewichte sind unter Apache 2.0 offen und können kostenlos von Hugging Face und Kaggle heruntergeladen werden. Sie zahlen nur für die Hardware oder Cloud, auf der Sie es ausführen. Siehe wie man Gemma 4 12B kostenlos verwendet.

Kann Gemma 4 12B wirklich Audio verstehen?

Ja. Es nimmt rohes Audio als Eingabe entgegen und kann Sprache transkribieren, Sprecher identifizieren und Fragen zu Geräuschen beantworten. Es ist das erste mittelgroße Modell, das dies nativ statt über ein separates Sprachmodell tut.

Was ist der Unterschied zwischen gemma-4-12B und gemma-4-12B-it?

gemma-4-12B ist das Basismodell. gemma-4-12B-it ist für Chat, Werkzeugnutzung und das Befolgen von Anweisungen optimiert. Für die meisten Anwendungsfälle ist die -it-Version der sinnvollere Startpunkt.

Wie unterscheidet sich 12B von 26B und 31B?

12B ist dicht und Encoder-frei, optimiert für 16-GB-Maschinen. 26B ist ein Mixture-of-Experts-Modell mit 4B aktiven und 26B gesamten Parametern. 31B ist ein größeres dichtes Modell für Spitzenqualität. Beide größeren Modelle erzielen höhere Benchmark-Werte, benötigen aber mehr Speicher.

Unterstützt Gemma 4 12B Funktionsaufrufe?

Ja. Es unterstützt textbasierte und multimodale Funktionsaufrufe sowie einen optionalen Denkmodus für schrittweises Schlussfolgern. Dadurch eignet es sich für Agenten-Workflows.

Wie vergleicht es sich mit Gemini 3.5?

Das sind unterschiedliche Einsatzbereiche. Gemini 3.5 ist Googles gehostetes Spitzenmodell; siehe was ist Gemini 3.5. Gemma 4 12B ist ein offenes Modell, das Sie selbst ausführen. Sie tauschen etwas Spitzenqualität gegen Privatsphäre, Offline-Nutzung und keine Token-Kosten ein.

DEV Community