Gemma 4 12B est un modèle à poids ouverts sous licence Apache 2.0. Concrètement, vous pouvez le télécharger et l’exécuter gratuitement : pas de frais d’API, pas d’abonnement, pas de quota cloud. Le seul coût est le matériel que vous utilisez déjà.
À retenir avant de commencer : Gemma 4 12B vise surtout l’usage local et embarqué. Les modèles plus grands, comme les 31B et 26B, sont ceux que Google héberge gratuitement pour le chat dans AI Studio. L’intérêt du 12B est qu’il peut tourner sur une machine avec 16 Go de mémoire. Si vous découvrez le modèle, commencez par qu’est-ce que Gemma 4 12B pour les spécifications.
Voici six façons pratiques de l’utiliser gratuitement, de la démo navigateur à l’API locale exploitable dans une application.
Résumé rapide
| Méthode | Ce que vous obtenez | Idéal pour |
|---|---|---|
| Hugging Face Space | Chat navigateur, zéro installation | Tester en une minute |
| Ollama | Modèle local + API compatible OpenAI | Développement local rapide |
| LM Studio | Application desktop avec interface graphique | Utilisation sans terminal |
| llama.cpp | Serveur API local léger | Configurations avancées ou sobres |
| HF Transformers | Python, contrôle total, GPU Colab gratuit | Notebooks, scripts, affinage |
| Google AI Edge | Exécution sur appareil/mobile | Téléphones et matériel edge |
Méthode 1 : tester Gemma 4 12B dans le navigateur
Le moyen le plus rapide est l’espace de démonstration officiel sur Hugging Face. Aucun téléchargement, aucun compte, aucun GPU local.
- Ouvrez l’espace de démonstration Gemma 4 12B
- Saisissez une invite
- Optionnel : ajoutez une image ou un extrait audio
- Lisez la réponse
Utilisez cette méthode pour valider rapidement le comportement du modèle, notamment ses capacités multimodales. Pour construire une intégration réelle, passez plutôt à Ollama, LM Studio, llama.cpp ou Transformers.
Méthode 2 : Ollama, le choix le plus simple pour les développeurs
Ollama permet d’exécuter Gemma 4 12B localement et d’obtenir une API HTTP compatible OpenAI.
Installer Ollama
Sur macOS ou Linux :
curl -fsSL https://ollama.com/install.sh | sh
Sous Windows, téléchargez l’installateur depuis ollama.com, puis lancez-le.
Télécharger et lancer le modèle
ollama pull gemma4:12b
ollama run gemma4:12b
La première commande télécharge le modèle, par défaut en quantification 4 bits Q4_K_M, autour de 8 Go. La seconde ouvre un chat interactif.
Pour quitter :
/bye
Appeler l’API locale
Ollama expose une API REST compatible OpenAI sur :
http://localhost:11434
Exemple avec curl :
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Explain how transformers work in two sentences."
}
]
}'
Comme le format suit l’API OpenAI, vous pouvez réutiliser un SDK ou un outil existant en remplaçant simplement l’URL de base par :
http://localhost:11434/v1
Pour un exemple de configuration dans un IDE, l’approche est similaire à notre tutoriel DeepSeek V4 dans Cursor. Remplacez seulement le nom du modèle par :
gemma4:12b
Commandes utiles :
ollama list
ollama ps
ollama show gemma4:12b
-
ollama listaffiche les modèles téléchargés -
ollama psaffiche les modèles en cours d’exécution -
ollama show gemma4:12baffiche les détails du modèle
Méthode 3 : LM Studio, sans terminal
Si vous préférez une interface graphique, LM Studio fonctionne sur Windows, macOS et Linux.
Étapes :
- Téléchargez et installez LM Studio
- Recherchez Gemma 4 12B dans le catalogue de modèles
- Choisissez une quantification adaptée à votre RAM
- Téléchargez le modèle
- Ouvrez l’onglet de discussion
- Lancez vos premières invites
LM Studio peut aussi démarrer un serveur local compatible OpenAI, généralement sur le port 1234. Vous obtenez donc une API locale sans écrire de configuration manuelle.
C’est une bonne option pour les développeurs qui veulent tester rapidement un modèle, mais aussi pour les rédacteurs, designers ou équipes produit qui préfèrent une interface de chat.
Méthode 4 : llama.cpp, léger et configurable
llama.cpp exécute des modèles GGUF avec peu de dépendances et expose aussi un serveur compatible OpenAI.
Installer llama.cpp
Sur macOS :
brew install llama.cpp
Sur Windows :
winget install llama.cpp
Démarrer un serveur local
Parcourez la collection ggml-org/gemma-4 sur Hugging Face pour trouver le dépôt GGUF correspondant à Gemma 4 12B, puis lancez :
llama-server -hf ggml-org/gemma-4-12B-it-GGUF
Le serveur expose ensuite une API compatible OpenAI sur :
http://localhost:8080/v1
Cette méthode est utile si vous voulez :
- réduire les dépendances ;
- ajuster finement les paramètres ;
- exécuter le modèle sur une machine modeste ;
- comprendre le moteur utilisé par plusieurs outils locaux.
Méthode 5 : Hugging Face Transformers, contrôle total en Python
Pour les notebooks, les scripts ou l’affinage, utilisez Transformers. Si vous n’avez pas de GPU local, un notebook Google Colab gratuit peut suffire pour expérimenter.
Installer les dépendances
pip install transformers torch accelerate torchvision
pip install librosa
librosa est utile pour les entrées audio.
Charger le modèle et générer une réponse
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
messages = [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Write a short joke about saving RAM."
},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(
**inputs,
max_new_tokens=1024
)
response = processor.decode(
outputs[0][input_len:],
skip_special_tokens=False
)
print(processor.parse_response(response))
Pour activer le mode de raisonnement étape par étape :
enable_thinking=True
Utilisez-le pour les tâches de mathématiques, de logique ou de raisonnement complexe. Désactivez-le pour les conversations simples afin de réduire la latence.
Pour les entrées multimodales, ajoutez du contenu structuré :
- image avant le texte :
{"type": "image", ...} - audio après le texte :
{"type": "audio", ...}
Les poids sont aussi disponibles sur Kaggle. Des exemples complets sont disponibles dans le guide du développeur.
Méthode 6 : Google AI Edge pour mobile et edge
Pour exécuter Gemma 4 12B sur téléphone ou appareil edge, utilisez la pile Google AI Edge.
L’application Google AI Edge Gallery et la CLI LiteRT-LM permettent d’exécuter le modèle directement sur l’appareil.
Exemple avec LiteRT-LM :
litert-lm import \
--from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve
Cette approche convient aux assistants mobiles hors ligne et aux applications embarquées où les données doivent rester sur l’appareil.
Tester votre API locale Gemma 4 12B avec Apidog
Une fois Gemma 4 12B lancé via Ollama ou llama.cpp, vous avez une API HTTP locale. Avant de l’intégrer dans une application, testez-la avec un client API pour vérifier la structure des requêtes, des réponses et du streaming. Apidog est adapté à ce flux.
Configuration recommandée :
- Téléchargez Apidog
- Créez un nouveau projet HTTP
- Ajoutez une requête
POST - Utilisez l’URL Ollama :
http://localhost:11434/v1/chat/completions
Ou l’URL llama.cpp :
http://localhost:8080/v1/chat/completions
- Définissez le corps en JSON :
{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Return a JSON object with two fields: city and country."
}
],
"stream": false
}
- Enregistrez l’URL de base comme variable d’environnement pour basculer entre Ollama et llama.cpp
- Ajoutez une assertion pour vérifier que le champ
contentcontient un JSON valide - Testez le streaming avec :
"stream": true
Le bénéfice est simple : vous détectez les erreurs de payload, de nom de modèle ou de structure JSON avant qu’elles n’apparaissent dans le code de votre application.
Pour comparer d’autres clients, consultez aussi les outils de test d’API en ligne gratuits et les meilleures alternatives à Postman. Le même flux de test s’applique aux API compatibles OpenAI, comme dans un workflow de type comment tester les API avec Postman.
Quelle quantification choisir ?
Gemma 4 12B peut s’adapter à plusieurs configurations matérielles selon le niveau de compression.
| Version | Mémoire nécessaire | Compromis |
|---|---|---|
| Pleine précision | ~16 Go | Meilleure qualité |
| 8 bits | ~14 Go | Qualité quasi optimale |
| 4 bits Q4_K_M | ~8 Go | Légère baisse de qualité, plus accessible |
Ollama utilise par défaut une version 4 bits, ce qui explique pourquoi le modèle peut tourner sur un GPU de 8 Go ou un MacBook avec 16 Go de mémoire unifiée.
Si vous avez assez de marge mémoire, testez la version 8 bits pour gagner en qualité. Si votre machine commence à swapper sur disque, revenez en 4 bits.
Quelle méthode choisir ?
Utilisez ce guide rapide :
- Vous voulez juste tester ? Utilisez la démo Hugging Face Space.
- Vous développez une application ? Utilisez Ollama pour obtenir vite une API locale.
- Vous ne voulez pas utiliser le terminal ? Utilisez LM Studio.
- Vous voulez une configuration légère et ajustable ? Utilisez llama.cpp.
- Vous travaillez en notebook ou en Python ? Utilisez Transformers, éventuellement avec Colab.
- Vous ciblez mobile ou edge ? Utilisez Google AI Edge.
Pour la plupart des développeurs, le meilleur point de départ est Ollama. Gardez Transformers pour les scripts avancés, les notebooks et les expérimentations plus contrôlées.
Conseils pratiques pour Gemma 4 12B en local
- Choisissez la quantification selon votre RAM. Si le modèle échange sur disque, l’expérience sera lente. La version 4 bits est le choix sûr.
-
Activez le mode de réflexion seulement quand nécessaire. Utilisez
enable_thinking=Truepour les problèmes complexes, pas pour un chat simple. - Surveillez la fenêtre de contexte. La fenêtre de 256K est large, mais les longues transcriptions et bases de code peuvent la remplir rapidement.
- Validez d’abord vos requêtes dans Apidog. Vérifiez le JSON, les champs et le streaming avant d’intégrer l’API.
- Réutilisez le même schéma avec d’autres modèles. Les workflows locaux sont similaires pour Qwen 3.7, MiniMax M3 et Claude Opus 4.8.
FAQ
Gemma 4 12B est-il vraiment gratuit ?
Oui. C’est un modèle à poids ouverts sous licence Apache 2.0. Vous pouvez le télécharger et l’exécuter gratuitement, y compris pour un usage commercial. Vous payez seulement le matériel ou l’infrastructure sur laquelle vous l’exécutez.
Ai-je besoin d’un GPU ?
Non, mais c’est fortement recommandé. La version 4 bits fonctionne sur un GPU de 8 Go ou sur un Mac avec 16 Go de mémoire unifiée. Sur CPU uniquement, le modèle peut fonctionner, mais lentement.
Puis-je utiliser Gemma 4 12B dans Google AI Studio ?
Pas actuellement. AI Studio héberge les modèles 31B et 26B pour le chat gratuit dans le navigateur. Gemma 4 12B est conçu pour une exécution locale ou sur appareil.
L’API locale nécessite-t-elle une clé API ?
Non. Ollama et llama.cpp servent le modèle sur localhost sans clé. Si un outil demande une clé, vous pouvez généralement fournir n’importe quelle chaîne : le serveur local l’ignorera.
Puis-je l’appeler depuis mon code OpenAI existant ?
Oui. Ollama et llama.cpp exposent des endpoints compatibles OpenAI. Remplacez l’URL de base par :
http://localhost:11434/v1
pour Ollama, ou :
http://localhost:8080/v1
pour llama.cpp.
Comment utiliser les entrées image et audio ?
Utilisez Transformers, LM Studio ou les applications AI Edge. Dans Transformers, ajoutez le contenu image avant l’invite textuelle et le contenu audio après.
Lequel est le plus rapide : Ollama ou llama.cpp ?
Ils reposent sur le même moteur sous-jacent. llama.cpp offre moins de surcharge et plus d’options de réglage. Ollama est plus simple à installer. Pour la plupart des usages, la différence reste faible.




Top comments (0)