Google hat Gemma 4 12B am 3. Juni 2026 ausgeliefert. Es ist ein Open-Weights-Modell mit 11,95 Milliarden Parametern, das Text, Bilder, Audio und Video liest und auf einen Laptop mit 16 GB Arbeitsspeicher passt. Das wichtigste Detail: Es ist das erste mittelgroße Modell mit nativer Audioeingabe, und es erreicht dies ohne separaten Bild- oder Audiokodierer.
Dieser Architekturunterschied ist praktisch relevant: Viele multimodale Modelle hängen einen Bildkodierer und einen Audiokodierer an ein Sprachmodell. Gemma 4 12B verzichtet auf beides und speist rohe Bildausschnitte sowie Audiowellenformen direkt in das Modell ein. Ergebnis: eine einzelne 12B-Datei, die vier Eingabetypen verarbeitet, offline läuft und unter Apache 2.0 kommerziell nutzbar ist.
In diesem Artikel erfahren Sie, wo Gemma 4 12B in der Gemma-4-Familie steht, welche Hardware Sie benötigen und welche Workflows sich damit lokal bauen lassen. Wenn Sie direkt starten möchten, springen Sie zur Begleitanleitung über die kostenlose Nutzung von Gemma 4 12B.
Gemma 4 12B auf einen Blick
| Spezifikation | Wert |
|---|---|
| Veröffentlicht | 3. Juni 2026 |
| Parameter | 11,95 Mrd. dicht |
| Eingaben | Text, Bild, Audio, Video |
| Ausgabe | Text |
| Kontextfenster | 256K Token |
| Architektur | Encoder-freie, vereinheitlichte multimodale Architektur |
| Lizenz | Apache 2.0 |
| Läuft auf | 16 GB VRAM oder Unified Memory, ca. 8 GB bei 4-Bit |
| Varianten |
google/gemma-4-12B Basis, google/gemma-4-12B-it instruction-tuned |
Kurzfassung für Entwickler
Gemma 4 12B ist ein dichtes Open-Modell von Google DeepMind mit 12 Milliarden Parametern. Es akzeptiert Text, Bilder, Audio und Video als Eingabe und gibt Text aus. Für lokale Anwendungen sind vor allem diese Punkte relevant:
- 256K-Kontextfenster für lange Dokumente, Transkripte und Codebasen
- native Audioeingabe ohne separaten Audiokodierer
- multimodale Eingaben in einem Modell
- Apache-2.0-Lizenz für kommerzielle Nutzung
- Betrieb auf Consumer-Hardware mit Quantisierung
- Unterstützung für Werkzeugaufrufe und optionalen Denkmodus
Gemma 4 12B sitzt in der Mitte der Gemma 4-Reihe. Google beschreibt es als Brücke zwischen dem Edge-freundlichen E4B-Modell und dem größeren 26B-Mixture-of-Experts-Modell: deutlich mehr Qualität als die kleineren Modelle, aber mit weniger Speicherbedarf als die größeren Varianten.
Wo Gemma 4 12B in die Gemma-4-Familie passt
Gemma 4 wurde nicht als einzelnes Modell veröffentlicht. E2B, E4B, 26B und 31B kamen am 31. März 2026. Das 12B-Modell wurde am 3. Juni ergänzt.
| Modell | Größe | Kontext | Anmerkungen |
|---|---|---|---|
| Gemma 4 E2B | 2,3 Mrd. effektiv, 5,1 Mrd. roh | 128K | On-Device, Audioeingabe |
| Gemma 4 E4B | 4,5 Mrd. effektiv, 8 Mrd. roh | 128K | Kompakt, Audioeingabe |
| Gemma 4 12B | 11,95 Mrd. dicht | 256K | Encoder-frei, Audioeingabe |
| Gemma 4 26B A4B | 4 Mrd. aktiv, 26 Mrd. gesamt | 256K | Mixture-of-Experts |
| Gemma 4 31B | 31 Mrd. dicht | 256K | Spitzenleistung |
Das 12B ist das einzige Modell der Familie mit Encoder-freiem Design. Die anderen Varianten behalten einen traditionellen Bildkodierer, und die kleineren Modelle nutzen zusätzlich einen Conformer-Audiokodierer. Wenn Sie multimodale KI lokal testen wollen, ist 12B deshalb der interessanteste Einstiegspunkt.
Für Vergleiche mit anderen offenen Modellen siehe auch den Vergleich von MiniMax M3, DeepSeek V4 und Qwen 3.7 und den Überblick zum Preiskampf bei Open-Weight-Modellen.
Was „Encoder-frei“ praktisch bedeutet
Klassische multimodale Pipelines bestehen meist aus mehreren Komponenten:
- Bildkodierer wandelt Bilder in Embeddings um.
- Audiokodierer wandelt Audio in Embeddings um.
- Projektor bringt diese Embeddings in den Raum des Sprachmodells.
- Sprachmodell verarbeitet alles als Kontext.
Das erhöht Speicherbedarf, Latenz und Integrationsaufwand.
Gemma 4 12B entfernt diese separaten Encoder:
- Bild: Ein leichtgewichtiges Embedding-Modul projiziert rohe Bildausschnitte direkt in den Embedding-Raum des Modells.
- Audio: Rohes Audio wird in denselben dimensionalen Raum wie Text-Tokens projiziert.
- Text, Bild und Audio laufen anschließend durch dasselbe Sprachmodell-Backbone.
Für Entwickler bedeutet das: weniger bewegliche Teile, eine einheitlichere Modelloberfläche und ein einfacherer lokaler Deployment-Pfad.
Zusätzlich nutzt das Modell zwei Effizienztechniken:
- Schichtspezifische Embeddings, PLE: Jede Decoder-Schicht erhält ein kleines dediziertes Embedding, das Token-Identität und kontextbewusste Projektion kombiniert.
- Gemeinsamer KV-Cache: Spätere Schichten können Key-Value-Tensoren aus früheren Schichten wiederverwenden, was Speicher bei langen Kontexten reduziert.
Google liefert außerdem einen Multi-Token-Prediction-Drafter für spekulative Dekodierung. Dieser kann die End-to-End-Inferenz laut Google um bis zu etwa das Dreifache beschleunigen, ohne die Ausgabequalität zu verändern.
Native Audio- und vollständige Multimodalität
Viele offene Modelle können Bilder lesen. Gemma 4 12B erweitert den lokalen Workflow um native Audioverarbeitung im selben Modell.
Typische Aufgaben:
- automatische Spracherkennung und Transkription
- Sprecherdiarisierung, also „wer hat wann gesprochen“
- Fragen zu Nicht-Sprachgeräuschen
- Videoverständnis mit Audio statt nur Einzelbildern
- Bildaufgaben wie Captioning, UI-Erkennung, Objekterkennung und visuelles Schlussfolgern
Wichtig bei gemischten Eingaben: Die Chat-Vorlage erwartet Bildinhalte vor der Textaufforderung und Audio danach. Das Modell gibt immer Text zurück.
Ein sinnvoller Prompt-Aufbau sieht konzeptionell so aus:
[Bildinhalt]
Beschreibe die sichtbaren UI-Elemente und extrahiere relevante Fehlermeldungen.
[Audioinhalt]
Fasse zusätzlich zusammen, was im Audiokommentar gesagt wird.
Benchmark-Ergebnisse
Die folgenden Werte stammen aus der Hugging-Face-Modellkarte für gemma-4-12B-it.
| Benchmark | Gemma 4 12B-it |
|---|---|
| MMLU Pro, Schlussfolgern | 77.2% |
| AIME 2026, Mathematik ohne Werkzeuge | 77.5% |
| GPQA Diamond, Wissenschaft | 78.8% |
| LiveCodeBench v6, Coding | 72.0% |
| Codeforces | 1659 ELO |
| MMMU Pro, Vision | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2, 128K, 8-Nadel, langer Kontext | 43.4% |
Im Familienvergleich:
| Benchmark | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
Das Muster ist klar: 12B liegt deutlich über E4B und kommt in mehreren Benchmarks in die Nähe des 26B-MoE-Modells. Der Kompromiss ist damit genau der, den Google bewirbt: ein großer Teil der Qualität des größeren Modells, aber auf Hardware, die viele Entwickler bereits besitzen.
Was ist neu gegenüber Gemma 3?
Wenn Sie Gemma 3 bereits genutzt haben, sind diese Änderungen wichtig:
Native Audioeingabe
Gemma 3 war auf Text und Bild ausgelegt. Gemma 4 12B ergänzt Ton und Video mit Audio.Encoder-freies Design
Es gibt keinen separaten Bild- oder Audiokodierer, den Sie zusätzlich laden und betreiben müssen.256K Kontext
Das gibt deutlich mehr Spielraum für lange Dokumente, Transkripte, Logs und Code aus mehreren Dateien.Apache 2.0
Frühere Gemma-Versionen nutzten eine eigene Gemma-Lizenz mit Nutzungsbedingungen. Gemma 4 wechselt zu Apache 2.0, was kommerzielle Nutzung und Weiterverteilung einfacher macht.
Was Sie damit bauen können
Gemma 4 12B eignet sich vor allem für lokale und datennahe Workflows:
Offline-Assistenten
Ein lokaler Assistent kann Bildschirm, Screenshots und Mikrofoneingaben verarbeiten, ohne Daten an einen Cloud-Dienst zu senden.Meeting- und Call-Tools
Lokale Transkription, Sprechertrennung und Zusammenfassung für interne Gespräche.Dokument- und Medien-Pipelines
Kombinieren Sie PDFs, Screenshots, UI-Bilder und Audio in einem Prompt.Agenten-Workflows
Durch Funktionsaufrufe und Werkzeugnutzung kann das Modell planen und Aktionen auslösen.Programmierhilfe
Mit 72.0% auf LiveCodeBench v6 ist es für lokale Autovervollständigung, Refactoring und Codeanalyse interessant.
Lokalen Modell-Endpunkt testen
Wenn Sie Gemma 4 12B über einen lokalen Runner wie Ollama oder llama.cpp bereitstellen, sollten Sie zuerst die HTTP-Schnittstelle validieren, bevor Sie sie in Ihre App einbauen.
Ein typischer Testablauf:
- Modell lokal starten.
- Chat-Endpunkt identifizieren.
- Beispiel-Prompt senden.
- JSON-Antwort prüfen.
- Fehlerfälle dokumentieren.
- Erst danach SDK, Backend oder Agent anbinden.
Beispiel für einen lokalen Chat-Request, wenn Ihr Runner eine OpenAI-kompatible API bereitstellt:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma-4-12B-it",
"messages": [
{
"role": "user",
"content": "Fasse diesen Text in drei technischen Stichpunkten zusammen."
}
]
}'
Für die Integration in eine Anwendung sollten Sie zusätzlich festlegen:
{
"model": "gemma-4-12B-it",
"input_modalities": ["text", "image", "audio"],
"output": "text",
"max_context_tokens": 256000,
"requires_local_runtime": true
}
Wenn Sie den lokalen Endpunkt dokumentieren oder wiederholt testen möchten, können Sie Apidog verwenden. Speichern Sie den lokalen API-Endpunkt, senden Sie Beispiel-Prompts und prüfen Sie das JSON, bevor Sie produktiven Code darauf aufbauen. Sie können Apidog kostenlos herunterladen und auf Ihren lokalen Server richten. Weitere Details stehen in der kostenlosen Nutzungsanleitung.
Lizenz: Was Apache 2.0 ermöglicht
Gemma 4 12B wird unter Apache 2.0 veröffentlicht. Praktisch heißt das:
- Sie können das Modell kommerziell nutzen.
- Sie können es modifizieren und feinabstimmen.
- Sie können abgeleitete Versionen weiterverbreiten.
- Sie können es in Closed-Source-Produkten verwenden.
- Sie behalten Ihre Ausgaben.
Das ist ein klarer Wechsel gegenüber früheren Gemma-Lizenzen mit eigenen Nutzungsbedingungen. Für viele Teams ist Apache 2.0 einfacher in der rechtlichen Prüfung, weil die Lizenz in Open-Source-Infrastruktur weit verbreitet ist.
Benötigte Hardware
Google zielt auf Systeme mit 16 GB VRAM oder Unified Memory. Quantisierung reduziert den Bedarf:
| Variante | Grober Speicherbedarf |
|---|---|
| Volle Qualität | ca. 16 GB |
| 8-Bit | ca. 14 GB |
| 4-Bit, Q4_K_M | ca. 8 GB |
Damit ist Gemma 4 12B für viele Setups erreichbar:
- Gaming-GPU mit ausreichend VRAM
- 16-GB-MacBook mit Unified Memory
- Mittelklasse-Workstation
- lokaler Server mit quantisiertem Modell
Wenn Ihre Hardware knapper ist, sind E2B oder E4B die naheliegenden Alternativen.
Einschränkungen, die Sie einplanen sollten
Gemma 4 12B ist ein offenes 12B-Modell und hat die üblichen Grenzen:
- Es kann falsche oder veraltete Fakten ausgeben.
- Es kann Bias aus Trainingsdaten widerspiegeln.
- Sarkasmus, Nuancen und bildliche Sprache funktionieren nicht immer zuverlässig.
- Schlussfolgern hat Grenzen, besonders bei sehr komplexen Aufgaben.
- Die Ausgabequalität hängt stark von Prompt, Kontext und Eingabereihenfolge ab.
Für produktive Systeme sollten Sie deshalb Validierung einbauen:
1. Modellantwort erzeugen
2. Ausgabe gegen Regeln oder Quellen prüfen
3. kritische Fakten markieren
4. bei Unsicherheit Mensch oder externes Tool einbeziehen
5. Antwort erst danach weiterverarbeiten
Der Punkt von Gemma 4 12B ist nicht, ein führendes Cloud-Modell in jeder Spitzenaufgabe zu ersetzen. Der Punkt ist eine fähige multimodale KI, die lokal läuft und dort arbeitet, wo Ihre Daten bereits liegen.
FAQ
Ist Gemma 4 12B kostenlos?
Ja. Die Gewichte sind unter Apache 2.0 offen und können kostenlos von Hugging Face und Kaggle heruntergeladen werden. Sie zahlen nur für die Hardware oder Cloud, auf der Sie es ausführen. Siehe wie man Gemma 4 12B kostenlos verwendet.
Kann Gemma 4 12B wirklich Audio verstehen?
Ja. Es nimmt rohes Audio als Eingabe entgegen und kann Sprache transkribieren, Sprecher identifizieren und Fragen zu Geräuschen beantworten. Es ist das erste mittelgroße Modell, das dies nativ statt über ein separates Sprachmodell tut.
Was ist der Unterschied zwischen gemma-4-12B und gemma-4-12B-it?
gemma-4-12B ist das Basismodell. gemma-4-12B-it ist für Chat, Werkzeugnutzung und das Befolgen von Anweisungen optimiert. Für die meisten Anwendungsfälle ist die -it-Version der sinnvollere Startpunkt.
Wie unterscheidet sich 12B von 26B und 31B?
12B ist dicht und Encoder-frei, optimiert für 16-GB-Maschinen. 26B ist ein Mixture-of-Experts-Modell mit 4B aktiven und 26B gesamten Parametern. 31B ist ein größeres dichtes Modell für Spitzenqualität. Beide größeren Modelle erzielen höhere Benchmark-Werte, benötigen aber mehr Speicher.
Unterstützt Gemma 4 12B Funktionsaufrufe?
Ja. Es unterstützt textbasierte und multimodale Funktionsaufrufe sowie einen optionalen Denkmodus für schrittweises Schlussfolgern. Dadurch eignet es sich für Agenten-Workflows.
Wie vergleicht es sich mit Gemini 3.5?
Das sind unterschiedliche Einsatzbereiche. Gemini 3.5 ist Googles gehostetes Spitzenmodell; siehe was ist Gemini 3.5. Gemma 4 12B ist ein offenes Modell, das Sie selbst ausführen. Sie tauschen etwas Spitzenqualität gegen Privatsphäre, Offline-Nutzung und keine Token-Kosten ein.

Top comments (0)