Google a lancé Gemma 4 12B le 3 juin 2026. C’est un modèle à poids ouverts de 11,95 milliards de paramètres qui accepte du texte, des images, de l’audio et de la vidéo en entrée, puis renvoie du texte. Son intérêt principal pour les développeurs : il peut tourner localement sur une machine avec 16 Go de mémoire, avec une entrée audio native et sans encodeur visuel ou audio séparé.
Contrairement à beaucoup de modèles multimodaux, Gemma 4 12B ne colle pas un encodeur image et un encodeur audio à un LLM. Il projette directement les patchs d’image bruts et les formes d’onde audio dans l’espace du modèle. Résultat : un seul modèle dense de 12B paramètres pour quatre types d’entrée, utilisable hors ligne et publié sous licence Apache 2.0.
Voici ce qu’il faut savoir pour l’évaluer, l’exécuter localement et l’intégrer dans un workflow. Pour un guide d’exécution pas à pas, consultez aussi comment utiliser Gemma 4 12B gratuitement.
Gemma 4 12B en un coup d’œil
| Spécification | Valeur |
|---|---|
| Lancé le | 3 juin 2026 |
| Paramètres | 11,95 milliards, dense |
| Entrées | Texte, image, audio, vidéo |
| Sortie | Texte |
| Fenêtre contextuelle | 256K jetons |
| Architecture | Multimodale unifiée sans encodeur |
| Licence | Apache 2.0 |
| Fonctionne sur | 16 Go de VRAM ou de mémoire unifiée, environ 8 Go en 4-bit |
| Variantes |
google/gemma-4-12B base, google/gemma-4-12B-it instruction-tuned |
La réponse courte
Gemma 4 12B est un modèle ouvert de Google DeepMind conçu pour les applications multimodales locales. Il prend en charge :
- le texte ;
- les images ;
- l’audio ;
- la vidéo ;
- l’appel d’outils ;
- un mode de raisonnement pas à pas optionnel ;
- une fenêtre de contexte de 256K jetons.
Il se situe au milieu de la gamme Gemma 4. Google le présente comme un pont entre le modèle E4B, plus adapté aux appareils périphériques, et le modèle MoE de 26 milliards de paramètres, avec une qualité proche du 26B sur plusieurs benchmarks pour une empreinte mémoire plus faible.
Où le 12B se situe dans la famille Gemma 4
Gemma 4 n’a pas été lancé en une seule fois. Les modèles E2B, E4B, 26B et 31B sont arrivés le 31 mars 2026. Le 12B a été ajouté le 3 juin.
| Modèle | Taille | Contexte | Notes |
|---|---|---|---|
| Gemma 4 E2B | 2,3 milliards effectifs, 5,1 milliards bruts | 128K | Sur appareil, entrée audio |
| Gemma 4 E4B | 4,5 milliards effectifs, 8 milliards bruts | 128K | Compact, entrée audio |
| Gemma 4 12B | 11,95 milliards dense | 256K | Sans encodeur, entrée audio |
| Gemma 4 26B A4B | 4 milliards actifs / 26 milliards totaux, MoE | 256K | Mixture-of-Experts |
| Gemma 4 31B | 31 milliards dense | 256K | Performance de pointe |
Le 12B est le seul modèle de cette famille construit sur une architecture sans encodeur. Les autres conservent un encodeur visuel traditionnel, et les deux plus petits utilisent aussi un encodeur audio conformer.
Pour comparer cette famille à d’autres modèles ouverts, vous pouvez lire la comparaison de MiniMax M3, DeepSeek V4 et Qwen 3.7 et l’analyse de la guerre des prix des modèles à poids ouverts.
Ce que signifie vraiment “sans encodeur”
Dans une architecture multimodale classique :
- un encodeur visuel transforme l’image en embeddings ;
- un encodeur audio transforme le son en embeddings ;
- un projecteur adapte ces embeddings à l’espace du modèle linguistique ;
- le LLM traite ensuite ces représentations.
Cela implique plusieurs composants à charger, versionner, ajuster et maintenir en mémoire.
Gemma 4 12B simplifie ce pipeline :
- Vision : un module d’embedding léger projette les patchs d’image bruts dans l’espace d’embedding du modèle.
- Audio : l’audio brut est projeté dans le même espace dimensionnel que les jetons texte.
- Texte, image et audio : toutes les modalités suivent le même chemin dans le cœur du modèle.
En pratique, pour une application locale, cela réduit la complexité d’intégration : vous n’avez pas à orchestrer plusieurs encodeurs autour du modèle principal.
Deux choix d’architecture améliorent aussi l’efficacité :
- Embeddings par couche, ou PLE : chaque couche de décodeur reçoit un petit embedding dédié combinant identité du jeton et projection contextuelle.
- Cache KV partagé : les dernières couches réutilisent les tenseurs clé-valeur de couches précédentes, ce qui réduit la mémoire en contexte long.
Google fournit également un drafter de prédiction multi-jetons, ou MTP, pour le décodage spéculatif. Il peut accélérer l’inférence de bout en bout jusqu’à environ 3x sans modifier la qualité de sortie.
Entrées multimodales : ordre recommandé
Quand vous mélangez plusieurs modalités, l’ordre des entrées compte.
Pour le modèle de chat :
- placez le contenu image avant l’invite texte ;
- placez l’audio après l’invite texte ;
- récupérez une réponse texte.
Schéma logique :
[image]
[texte utilisateur]
[audio]
=> réponse texte
Exemples de tâches adaptées :
- transcription locale ;
- résumé de réunion ;
- question-réponse sur audio ;
- analyse de capture d’écran ;
- compréhension de vidéo avec piste audio ;
- extraction d’informations depuis un mélange PDF + image + audio.
Exemple d’intégration API locale
Si vous exposez le modèle derrière un serveur local, gardez une interface simple : une route de chat, une charge utile JSON, puis une réponse texte.
Exemple de structure de requête :
{
"model": "google/gemma-4-12B-it",
"messages": [
{
"role": "user",
"content": "Résume cette transcription et liste les actions à suivre."
}
],
"temperature": 0.2
}
Exemple avec curl contre un endpoint local :
curl http://localhost:11434/api/chat \
-H "Content-Type: application/json" \
-d '{
"model": "google/gemma-4-12B-it",
"messages": [
{
"role": "user",
"content": "Explique ce bug et propose un correctif minimal."
}
],
"stream": false
}'
Avant d’intégrer ce type d’appel dans votre app, vérifiez trois points :
- le nom exact du modèle exposé par votre runner ;
- le format attendu pour les messages multimodaux ;
- la forme réelle de la réponse JSON.
Un outil comme Apidog permet d’enregistrer votre endpoint local, d’envoyer des prompts de test et de valider les réponses JSON avant d’écrire le code applicatif. Vous pouvez aussi télécharger Apidog et le pointer vers votre serveur local.
Audio natif et multimodalité complète
Beaucoup de modèles ouverts savent lire des images. Gemma 4 12B ajoute l’audio natif dans un modèle de taille moyenne, sans passer par un modèle de parole séparé.
Cas d’usage directs :
- ASR : reconnaissance automatique de la parole ;
- transcription : conversion parole vers texte ;
- diarisation : identification de qui parle et quand ;
- question-réponse audio : analyse de sons non vocaux ;
- vidéo : compréhension conjointe de l’image et du son ;
- vision : légendage, raisonnement visuel, compréhension d’interface.
Pour un pipeline de réunion local, par exemple :
audio réunion
=> transcription
=> diarisation
=> résumé
=> liste d’actions
=> export Markdown ou JSON
Pour un outil de support développeur :
capture d’écran + description du bug + logs audio/texte
=> diagnostic
=> étapes de reproduction
=> correctif suggéré
Performances publiées
Voici les scores publiés pour gemma-4-12B-it, tirés de la fiche du modèle Hugging Face.
| Benchmark | Gemma 4 12B-it |
|---|---|
| MMLU Pro, raisonnement | 77,2 % |
| AIME 2026, math sans outils | 77,5 % |
| GPQA Diamond, science | 78,8 % |
| LiveCodeBench v6, codage | 72,0 % |
| Codeforces, ELO | 1659 |
| MMMU Pro, vision | 69,1 % |
| MATH-Vision | 79,7 % |
| MRCR v2, 128K, 8 aiguilles, contexte long | 43,4 % |
Comparaison avec les autres modèles de la famille :
| Benchmark | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69,4 % | 77,2 % | 82,6 % | 85,2 % |
| AIME 2026 | 42,5 % | 77,5 % | 88,3 % | 89,2 % |
| GPQA Diamond | 58,6 % | 78,8 % | 82,3 % | 84,3 % |
| LiveCodeBench v6 | 52,0 % | 72,0 % | 77,1 % | 80,0 % |
Le compromis est clair : le 12B dépasse nettement l’E4B et s’approche du 26B MoE sur plusieurs benchmarks, avec une cible matérielle plus accessible.
Quoi de neuf par rapport à Gemma 3
Si vous avez déjà utilisé Gemma 3, les différences importantes sont :
Audio natif
Gemma 3 gérait le texte et la vision. Gemma 4 12B ajoute le son et la vidéo avec audio.Architecture sans encodeur
Pas d’encodeur visuel ou audio séparé à charger.Contexte 256K
Plus de marge pour les longs documents, les transcriptions, les bases de code et les prompts multimodaux.Licence Apache 2.0
Gemma 4 passe à une licence permissive standard, plus simple à intégrer dans des produits commerciaux.
Ce que vous pouvez construire avec Gemma 4 12B
Gemma 4 12B est surtout intéressant pour les workloads où les données doivent rester locales.
1. Assistant hors ligne
Entrées possibles :
écran + micro + texte utilisateur
Sorties possibles :
explication, résumé, actions, commande suggérée
Exemples :
- assistant de poste de travail ;
- aide au debugging ;
- analyse d’écran ;
- résumé d’une conversation vocale.
2. Outil de réunion local
Pipeline :
audio brut
=> transcription
=> diarisation
=> résumé
=> décisions
=> tâches
Avantage : les données audio ne quittent pas la machine.
3. Analyse de documents et médias
Vous pouvez combiner :
- captures d’écran ;
- PDF ;
- images ;
- transcriptions ;
- extraits audio ;
- prompts texte.
Exemple de prompt :
Analyse ces captures d’écran et cette transcription.
Retourne :
1. le problème principal ;
2. les étapes de reproduction ;
3. les zones ambiguës ;
4. une réponse JSON avec les champs severity, summary et next_actions.
4. Workflows agentiques
Gemma 4 12B prend en charge l’appel de fonctions et l’utilisation d’outils. Vous pouvez donc l’utiliser dans un agent local qui :
- lit un fichier ;
- résume son contenu ;
- appelle une API ;
- produit une réponse structurée ;
- déclenche une action validée par l’utilisateur.
Exemple de contrat de sortie :
{
"action": "create_ticket",
"priority": "medium",
"summary": "Le flux audio échoue lorsque le fichier dépasse 30 minutes.",
"next_steps": [
"Ajouter un test avec un fichier long",
"Vérifier la limite mémoire du runner local"
]
}
5. Aide au codage
Avec un score LiveCodeBench v6 de 72,0 %, le modèle peut servir pour :
- complétion locale ;
- refactorisation ;
- explication de fonctions ;
- génération de tests ;
- revue de petits diffs ;
- transformation de code multi-fichiers dans la limite du contexte disponible.
Vérifier vos endpoints avec Apidog
Quand vous branchez un modèle local à une application, ne commencez pas par coder l’intégration complète. Commencez par stabiliser l’API.
Checklist minimale :
- Créez une requête
POSTvers votre endpoint local. - Ajoutez les headers nécessaires, par exemple
Content-Type: application/json. - Testez un prompt texte simple.
- Testez une réponse structurée en JSON.
- Ajoutez ensuite les entrées multimodales.
- Sauvegardez les exemples qui deviennent vos cas de test.
Exemple de payload à tester :
{
"messages": [
{
"role": "system",
"content": "Réponds toujours en JSON valide."
},
{
"role": "user",
"content": "Résume ce bug en trois champs : title, cause, fix."
}
]
}
Avec Apidog, vous pouvez documenter l’endpoint local, rejouer les requêtes et vérifier le format des réponses avant de connecter le modèle à votre application. Le guide complémentaire explique aussi comment utiliser Gemma 4 12B gratuitement.
Licence : ce qu’Apache 2.0 permet
Gemma 4 12B est publié sous licence Apache 2.0.
En pratique, vous pouvez :
- l’utiliser commercialement ;
- le modifier ;
- l’affiner ;
- le redistribuer ;
- l’intégrer dans des produits propriétaires ;
- conserver vos résultats.
C’est un changement important par rapport aux anciennes licences Gemma personnalisées. Apache 2.0 est une licence permissive connue, ce qui simplifie généralement l’examen juridique côté entreprise.
Matériel nécessaire
La cible annoncée est une machine avec 16 Go de VRAM ou de mémoire unifiée.
Repères mémoire :
| Mode | Mémoire approximative |
|---|---|
| Qualité maximale | environ 16 Go |
| 8-bit | environ 14 Go |
| 4-bit, Q4_K_M | environ 8 Go |
Cela rend le modèle accessible sur :
- une carte graphique grand public ;
- un MacBook avec 16 Go de mémoire unifiée ;
- une station de travail de milieu de gamme.
Si votre machine est plus limitée, les modèles E2B et E4B restent plus adaptés.
Limitations à connaître
Comme tout modèle ouvert de cette taille, Gemma 4 12B a des limites :
- il peut produire des faits incorrects ou dépassés ;
- il peut refléter les biais de ses données d’entraînement ;
- il gère parfois mal le sarcasme, la nuance et le langage figuré ;
- son raisonnement de bon sens reste limité ;
- la qualité dépend fortement de la clarté du prompt et du contexte fourni.
Pour une application de production, prévoyez :
- validation des sorties ;
- logs de prompts et réponses ;
- tests sur vos propres données ;
- garde-fous pour les actions critiques ;
- vérification humaine pour les décisions sensibles.
FAQ
Gemma 4 12B est-il gratuit ?
Oui. Les poids sont ouverts sous Apache 2.0 et téléchargeables gratuitement depuis Hugging Face et Kaggle. Vous payez uniquement le matériel ou l’infrastructure sur laquelle vous l’exécutez. Voir comment utiliser Gemma 4 12B gratuitement.
Gemma 4 12B peut-il vraiment comprendre l’audio ?
Oui. Il accepte l’audio brut en entrée et peut transcrire la parole, identifier les locuteurs et répondre à des questions sur le son. Son intérêt est de le faire nativement, sans modèle de parole séparé.
Quelle est la différence entre gemma-4-12B et gemma-4-12B-it ?
gemma-4-12B est le modèle de base pré-entraîné.
gemma-4-12B-it est la version instruction-tuned, plus adaptée au chat, au suivi de consignes et à l’utilisation d’outils.
Pour la plupart des intégrations applicatives, commencez par gemma-4-12B-it.
Comment le 12B diffère-t-il des 26B et 31B ?
Le 12B est dense, sans encodeur et optimisé pour les machines de 16 Go.
Le 26B est un modèle MoE, avec 4B actifs et 26B au total.
Le 31B est un modèle dense plus grand, orienté performance maximale.
Les modèles plus grands obtiennent de meilleurs scores, mais demandent plus de mémoire.
Gemma 4 12B prend-il en charge l’appel d’outils ?
Oui. Il prend en charge l’appel de fonctions textuelles et multimodales, ainsi qu’un mode de réflexion optionnel pour le raisonnement pas à pas. Cela le rend utilisable dans des workflows agentiques.
Comment se compare-t-il à Gemini 3.5 ?
Les usages sont différents. Gemini 3.5 est un modèle hébergé de pointe de Google ; voir qu’est-ce que Gemini 3.5. Gemma 4 12B est un modèle ouvert que vous exécutez vous-même. Vous échangez une partie de la qualité maximale contre la confidentialité, l’exécution hors ligne et un coût nul par jeton.

Top comments (0)