Antoine Laurent

Posted on Jun 4 • Originally published at apidog.com

Qu'est-ce que Gemma 4 12B ?

Google a lancé Gemma 4 12B le 3 juin 2026. C’est un modèle à poids ouverts de 11,95 milliards de paramètres qui accepte du texte, des images, de l’audio et de la vidéo en entrée, puis renvoie du texte. Son intérêt principal pour les développeurs : il peut tourner localement sur une machine avec 16 Go de mémoire, avec une entrée audio native et sans encodeur visuel ou audio séparé.

Essayez Apidog aujourd’hui

Contrairement à beaucoup de modèles multimodaux, Gemma 4 12B ne colle pas un encodeur image et un encodeur audio à un LLM. Il projette directement les patchs d’image bruts et les formes d’onde audio dans l’espace du modèle. Résultat : un seul modèle dense de 12B paramètres pour quatre types d’entrée, utilisable hors ligne et publié sous licence Apache 2.0.

Voici ce qu’il faut savoir pour l’évaluer, l’exécuter localement et l’intégrer dans un workflow. Pour un guide d’exécution pas à pas, consultez aussi comment utiliser Gemma 4 12B gratuitement.

Gemma 4 12B en un coup d’œil

Spécification	Valeur
Lancé le	3 juin 2026
Paramètres	11,95 milliards, dense
Entrées	Texte, image, audio, vidéo
Sortie	Texte
Fenêtre contextuelle	256K jetons
Architecture	Multimodale unifiée sans encodeur
Licence	Apache 2.0
Fonctionne sur	16 Go de VRAM ou de mémoire unifiée, environ 8 Go en 4-bit
Variantes	`google/gemma-4-12B` base, `google/gemma-4-12B-it` instruction-tuned

La réponse courte

Gemma 4 12B est un modèle ouvert de Google DeepMind conçu pour les applications multimodales locales. Il prend en charge :

le texte ;
les images ;
l’audio ;
la vidéo ;
l’appel d’outils ;
un mode de raisonnement pas à pas optionnel ;
une fenêtre de contexte de 256K jetons.

Il se situe au milieu de la gamme Gemma 4. Google le présente comme un pont entre le modèle E4B, plus adapté aux appareils périphériques, et le modèle MoE de 26 milliards de paramètres, avec une qualité proche du 26B sur plusieurs benchmarks pour une empreinte mémoire plus faible.

Où le 12B se situe dans la famille Gemma 4

Gemma 4 n’a pas été lancé en une seule fois. Les modèles E2B, E4B, 26B et 31B sont arrivés le 31 mars 2026. Le 12B a été ajouté le 3 juin.

Modèle	Taille	Contexte	Notes
Gemma 4 E2B	2,3 milliards effectifs, 5,1 milliards bruts	128K	Sur appareil, entrée audio
Gemma 4 E4B	4,5 milliards effectifs, 8 milliards bruts	128K	Compact, entrée audio
Gemma 4 12B	11,95 milliards dense	256K	Sans encodeur, entrée audio
Gemma 4 26B A4B	4 milliards actifs / 26 milliards totaux, MoE	256K	Mixture-of-Experts
Gemma 4 31B	31 milliards dense	256K	Performance de pointe

Le 12B est le seul modèle de cette famille construit sur une architecture sans encodeur. Les autres conservent un encodeur visuel traditionnel, et les deux plus petits utilisent aussi un encodeur audio conformer.

Pour comparer cette famille à d’autres modèles ouverts, vous pouvez lire la comparaison de MiniMax M3, DeepSeek V4 et Qwen 3.7 et l’analyse de la guerre des prix des modèles à poids ouverts.

Ce que signifie vraiment “sans encodeur”

Dans une architecture multimodale classique :

un encodeur visuel transforme l’image en embeddings ;
un encodeur audio transforme le son en embeddings ;
un projecteur adapte ces embeddings à l’espace du modèle linguistique ;
le LLM traite ensuite ces représentations.

Cela implique plusieurs composants à charger, versionner, ajuster et maintenir en mémoire.

Gemma 4 12B simplifie ce pipeline :

Vision : un module d’embedding léger projette les patchs d’image bruts dans l’espace d’embedding du modèle.
Audio : l’audio brut est projeté dans le même espace dimensionnel que les jetons texte.
Texte, image et audio : toutes les modalités suivent le même chemin dans le cœur du modèle.

En pratique, pour une application locale, cela réduit la complexité d’intégration : vous n’avez pas à orchestrer plusieurs encodeurs autour du modèle principal.

Deux choix d’architecture améliorent aussi l’efficacité :

Embeddings par couche, ou PLE : chaque couche de décodeur reçoit un petit embedding dédié combinant identité du jeton et projection contextuelle.
Cache KV partagé : les dernières couches réutilisent les tenseurs clé-valeur de couches précédentes, ce qui réduit la mémoire en contexte long.

Google fournit également un drafter de prédiction multi-jetons, ou MTP, pour le décodage spéculatif. Il peut accélérer l’inférence de bout en bout jusqu’à environ 3x sans modifier la qualité de sortie.

Entrées multimodales : ordre recommandé

Quand vous mélangez plusieurs modalités, l’ordre des entrées compte.

Pour le modèle de chat :

placez le contenu image avant l’invite texte ;
placez l’audio après l’invite texte ;
récupérez une réponse texte.

Schéma logique :

[image]
[texte utilisateur]
[audio]
=> réponse texte

Exemples de tâches adaptées :

transcription locale ;
résumé de réunion ;
question-réponse sur audio ;
analyse de capture d’écran ;
compréhension de vidéo avec piste audio ;
extraction d’informations depuis un mélange PDF + image + audio.

Exemple d’intégration API locale

Si vous exposez le modèle derrière un serveur local, gardez une interface simple : une route de chat, une charge utile JSON, puis une réponse texte.

Exemple de structure de requête :

{
  "model": "google/gemma-4-12B-it",
  "messages": [
    {
      "role": "user",
      "content": "Résume cette transcription et liste les actions à suivre."
    }
  ],
  "temperature": 0.2
}

Exemple avec curl contre un endpoint local :

curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "google/gemma-4-12B-it",
    "messages": [
      {
        "role": "user",
        "content": "Explique ce bug et propose un correctif minimal."
      }
    ],
    "stream": false
  }'

Avant d’intégrer ce type d’appel dans votre app, vérifiez trois points :

le nom exact du modèle exposé par votre runner ;
le format attendu pour les messages multimodaux ;
la forme réelle de la réponse JSON.

Un outil comme Apidog permet d’enregistrer votre endpoint local, d’envoyer des prompts de test et de valider les réponses JSON avant d’écrire le code applicatif. Vous pouvez aussi télécharger Apidog et le pointer vers votre serveur local.

Audio natif et multimodalité complète

Beaucoup de modèles ouverts savent lire des images. Gemma 4 12B ajoute l’audio natif dans un modèle de taille moyenne, sans passer par un modèle de parole séparé.

Cas d’usage directs :

ASR : reconnaissance automatique de la parole ;
transcription : conversion parole vers texte ;
diarisation : identification de qui parle et quand ;
question-réponse audio : analyse de sons non vocaux ;
vidéo : compréhension conjointe de l’image et du son ;
vision : légendage, raisonnement visuel, compréhension d’interface.

Pour un pipeline de réunion local, par exemple :

audio réunion
=> transcription
=> diarisation
=> résumé
=> liste d’actions
=> export Markdown ou JSON

Pour un outil de support développeur :

capture d’écran + description du bug + logs audio/texte
=> diagnostic
=> étapes de reproduction
=> correctif suggéré

Performances publiées

Voici les scores publiés pour gemma-4-12B-it, tirés de la fiche du modèle Hugging Face.

Benchmark	Gemma 4 12B-it
MMLU Pro, raisonnement	77,2 %
AIME 2026, math sans outils	77,5 %
GPQA Diamond, science	78,8 %
LiveCodeBench v6, codage	72,0 %
Codeforces, ELO	1659
MMMU Pro, vision	69,1 %
MATH-Vision	79,7 %
MRCR v2, 128K, 8 aiguilles, contexte long	43,4 %

Comparaison avec les autres modèles de la famille :

Benchmark	E4B	12B	26B A4B	31B
MMLU Pro	69,4 %	77,2 %	82,6 %	85,2 %
AIME 2026	42,5 %	77,5 %	88,3 %	89,2 %
GPQA Diamond	58,6 %	78,8 %	82,3 %	84,3 %
LiveCodeBench v6	52,0 %	72,0 %	77,1 %	80,0 %

Le compromis est clair : le 12B dépasse nettement l’E4B et s’approche du 26B MoE sur plusieurs benchmarks, avec une cible matérielle plus accessible.

Quoi de neuf par rapport à Gemma 3

Si vous avez déjà utilisé Gemma 3, les différences importantes sont :

Audio natif

Gemma 3 gérait le texte et la vision. Gemma 4 12B ajoute le son et la vidéo avec audio.
Architecture sans encodeur

Pas d’encodeur visuel ou audio séparé à charger.
Contexte 256K

Plus de marge pour les longs documents, les transcriptions, les bases de code et les prompts multimodaux.
Licence Apache 2.0

Gemma 4 passe à une licence permissive standard, plus simple à intégrer dans des produits commerciaux.

Ce que vous pouvez construire avec Gemma 4 12B

Gemma 4 12B est surtout intéressant pour les workloads où les données doivent rester locales.

1. Assistant hors ligne

Entrées possibles :

écran + micro + texte utilisateur

Sorties possibles :

explication, résumé, actions, commande suggérée

Exemples :

assistant de poste de travail ;
aide au debugging ;
analyse d’écran ;
résumé d’une conversation vocale.

2. Outil de réunion local

Pipeline :

audio brut
=> transcription
=> diarisation
=> résumé
=> décisions
=> tâches

Avantage : les données audio ne quittent pas la machine.

3. Analyse de documents et médias

Vous pouvez combiner :

captures d’écran ;
PDF ;
images ;
transcriptions ;
extraits audio ;
prompts texte.

Exemple de prompt :

Analyse ces captures d’écran et cette transcription.
Retourne :
1. le problème principal ;
2. les étapes de reproduction ;
3. les zones ambiguës ;
4. une réponse JSON avec les champs severity, summary et next_actions.

4. Workflows agentiques

Gemma 4 12B prend en charge l’appel de fonctions et l’utilisation d’outils. Vous pouvez donc l’utiliser dans un agent local qui :

lit un fichier ;
résume son contenu ;
appelle une API ;
produit une réponse structurée ;
déclenche une action validée par l’utilisateur.

Exemple de contrat de sortie :

{
  "action": "create_ticket",
  "priority": "medium",
  "summary": "Le flux audio échoue lorsque le fichier dépasse 30 minutes.",
  "next_steps": [
    "Ajouter un test avec un fichier long",
    "Vérifier la limite mémoire du runner local"
  ]
}

5. Aide au codage

Avec un score LiveCodeBench v6 de 72,0 %, le modèle peut servir pour :

complétion locale ;
refactorisation ;
explication de fonctions ;
génération de tests ;
revue de petits diffs ;
transformation de code multi-fichiers dans la limite du contexte disponible.

Vérifier vos endpoints avec Apidog

Quand vous branchez un modèle local à une application, ne commencez pas par coder l’intégration complète. Commencez par stabiliser l’API.

Checklist minimale :

Créez une requête POST vers votre endpoint local.
Ajoutez les headers nécessaires, par exemple Content-Type: application/json.
Testez un prompt texte simple.
Testez une réponse structurée en JSON.
Ajoutez ensuite les entrées multimodales.
Sauvegardez les exemples qui deviennent vos cas de test.

Exemple de payload à tester :

{
  "messages": [
    {
      "role": "system",
      "content": "Réponds toujours en JSON valide."
    },
    {
      "role": "user",
      "content": "Résume ce bug en trois champs : title, cause, fix."
    }
  ]
}

Avec Apidog, vous pouvez documenter l’endpoint local, rejouer les requêtes et vérifier le format des réponses avant de connecter le modèle à votre application. Le guide complémentaire explique aussi comment utiliser Gemma 4 12B gratuitement.

Licence : ce qu’Apache 2.0 permet

Gemma 4 12B est publié sous licence Apache 2.0.

En pratique, vous pouvez :

l’utiliser commercialement ;
le modifier ;
l’affiner ;
le redistribuer ;
l’intégrer dans des produits propriétaires ;
conserver vos résultats.

C’est un changement important par rapport aux anciennes licences Gemma personnalisées. Apache 2.0 est une licence permissive connue, ce qui simplifie généralement l’examen juridique côté entreprise.

Matériel nécessaire

La cible annoncée est une machine avec 16 Go de VRAM ou de mémoire unifiée.

Repères mémoire :

Mode	Mémoire approximative
Qualité maximale	environ 16 Go
8-bit	environ 14 Go
4-bit, Q4_K_M	environ 8 Go

Cela rend le modèle accessible sur :

une carte graphique grand public ;
un MacBook avec 16 Go de mémoire unifiée ;
une station de travail de milieu de gamme.

Si votre machine est plus limitée, les modèles E2B et E4B restent plus adaptés.

Limitations à connaître

Comme tout modèle ouvert de cette taille, Gemma 4 12B a des limites :

il peut produire des faits incorrects ou dépassés ;
il peut refléter les biais de ses données d’entraînement ;
il gère parfois mal le sarcasme, la nuance et le langage figuré ;
son raisonnement de bon sens reste limité ;
la qualité dépend fortement de la clarté du prompt et du contexte fourni.

Pour une application de production, prévoyez :

validation des sorties ;
logs de prompts et réponses ;
tests sur vos propres données ;
garde-fous pour les actions critiques ;
vérification humaine pour les décisions sensibles.

FAQ

Gemma 4 12B est-il gratuit ?

Oui. Les poids sont ouverts sous Apache 2.0 et téléchargeables gratuitement depuis Hugging Face et Kaggle. Vous payez uniquement le matériel ou l’infrastructure sur laquelle vous l’exécutez. Voir comment utiliser Gemma 4 12B gratuitement.

Gemma 4 12B peut-il vraiment comprendre l’audio ?

Oui. Il accepte l’audio brut en entrée et peut transcrire la parole, identifier les locuteurs et répondre à des questions sur le son. Son intérêt est de le faire nativement, sans modèle de parole séparé.

Quelle est la différence entre `gemma-4-12B` et `gemma-4-12B-it` ?

gemma-4-12B est le modèle de base pré-entraîné.

gemma-4-12B-it est la version instruction-tuned, plus adaptée au chat, au suivi de consignes et à l’utilisation d’outils.

Pour la plupart des intégrations applicatives, commencez par gemma-4-12B-it.

Comment le 12B diffère-t-il des 26B et 31B ?

Le 12B est dense, sans encodeur et optimisé pour les machines de 16 Go.

Le 26B est un modèle MoE, avec 4B actifs et 26B au total.

Le 31B est un modèle dense plus grand, orienté performance maximale.

Les modèles plus grands obtiennent de meilleurs scores, mais demandent plus de mémoire.

Gemma 4 12B prend-il en charge l’appel d’outils ?

Oui. Il prend en charge l’appel de fonctions textuelles et multimodales, ainsi qu’un mode de réflexion optionnel pour le raisonnement pas à pas. Cela le rend utilisable dans des workflows agentiques.

Comment se compare-t-il à Gemini 3.5 ?

Les usages sont différents. Gemini 3.5 est un modèle hébergé de pointe de Google ; voir qu’est-ce que Gemini 3.5. Gemma 4 12B est un modèle ouvert que vous exécutez vous-même. Vous échangez une partie de la qualité maximale contre la confidentialité, l’exécution hors ligne et un coût nul par jeton.

DEV Community

Qu'est-ce que Gemma 4 12B ?

Gemma 4 12B en un coup d’œil

La réponse courte

Où le 12B se situe dans la famille Gemma 4

Ce que signifie vraiment “sans encodeur”

Entrées multimodales : ordre recommandé

Exemple d’intégration API locale

Audio natif et multimodalité complète

Performances publiées

Quoi de neuf par rapport à Gemma 3

Ce que vous pouvez construire avec Gemma 4 12B

1. Assistant hors ligne

2. Outil de réunion local

3. Analyse de documents et médias

4. Workflows agentiques

5. Aide au codage

Vérifier vos endpoints avec Apidog

Licence : ce qu’Apache 2.0 permet

Matériel nécessaire

Limitations à connaître

FAQ

Gemma 4 12B est-il gratuit ?

Gemma 4 12B peut-il vraiment comprendre l’audio ?

Quelle est la différence entre `gemma-4-12B` et `gemma-4-12B-it` ?

Comment le 12B diffère-t-il des 26B et 31B ?

Gemma 4 12B prend-il en charge l’appel d’outils ?

Comment se compare-t-il à Gemini 3.5 ?

Top comments (0)

Gemma 4 12B en un coup d’œil

La réponse courte

Où le 12B se situe dans la famille Gemma 4

Ce que signifie vraiment “sans encodeur”

Entrées multimodales : ordre recommandé

Exemple d’intégration API locale

Audio natif et multimodalité complète

Performances publiées

Quoi de neuf par rapport à Gemma 3

Ce que vous pouvez construire avec Gemma 4 12B

1. Assistant hors ligne

2. Outil de réunion local

3. Analyse de documents et médias

4. Workflows agentiques

5. Aide au codage

Vérifier vos endpoints avec Apidog

Licence : ce qu’Apache 2.0 permet

Matériel nécessaire

Limitations à connaître

FAQ

Gemma 4 12B est-il gratuit ?

Gemma 4 12B peut-il vraiment comprendre l’audio ?

Quelle est la différence entre gemma-4-12B et gemma-4-12B-it ?

Comment le 12B diffère-t-il des 26B et 31B ?

Gemma 4 12B prend-il en charge l’appel d’outils ?

Comment se compare-t-il à Gemini 3.5 ?

Quelle est la différence entre `gemma-4-12B` et `gemma-4-12B-it` ?