Antoine Laurent

Posted on Jun 4 • Originally published at apidog.com

Comment utiliser Gemma 4 12B gratuitement : 6 méthodes efficaces en 2026

Gemma 4 12B est un modèle à poids ouverts sous licence Apache 2.0. Concrètement, vous pouvez le télécharger et l’exécuter gratuitement : pas de frais d’API, pas d’abonnement, pas de quota cloud. Le seul coût est le matériel que vous utilisez déjà.

Essayez Apidog aujourd’hui

À retenir avant de commencer : Gemma 4 12B vise surtout l’usage local et embarqué. Les modèles plus grands, comme les 31B et 26B, sont ceux que Google héberge gratuitement pour le chat dans AI Studio. L’intérêt du 12B est qu’il peut tourner sur une machine avec 16 Go de mémoire. Si vous découvrez le modèle, commencez par qu’est-ce que Gemma 4 12B pour les spécifications.

Voici six façons pratiques de l’utiliser gratuitement, de la démo navigateur à l’API locale exploitable dans une application.

Résumé rapide

Méthode	Ce que vous obtenez	Idéal pour
Hugging Face Space	Chat navigateur, zéro installation	Tester en une minute
Ollama	Modèle local + API compatible OpenAI	Développement local rapide
LM Studio	Application desktop avec interface graphique	Utilisation sans terminal
llama.cpp	Serveur API local léger	Configurations avancées ou sobres
HF Transformers	Python, contrôle total, GPU Colab gratuit	Notebooks, scripts, affinage
Google AI Edge	Exécution sur appareil/mobile	Téléphones et matériel edge

Méthode 1 : tester Gemma 4 12B dans le navigateur

Le moyen le plus rapide est l’espace de démonstration officiel sur Hugging Face. Aucun téléchargement, aucun compte, aucun GPU local.

Ouvrez l’espace de démonstration Gemma 4 12B
Saisissez une invite
Optionnel : ajoutez une image ou un extrait audio
Lisez la réponse

Utilisez cette méthode pour valider rapidement le comportement du modèle, notamment ses capacités multimodales. Pour construire une intégration réelle, passez plutôt à Ollama, LM Studio, llama.cpp ou Transformers.

Méthode 2 : Ollama, le choix le plus simple pour les développeurs

Ollama permet d’exécuter Gemma 4 12B localement et d’obtenir une API HTTP compatible OpenAI.

Installer Ollama

Sur macOS ou Linux :

curl -fsSL https://ollama.com/install.sh | sh

Sous Windows, téléchargez l’installateur depuis ollama.com, puis lancez-le.

Télécharger et lancer le modèle

ollama pull gemma4:12b
ollama run gemma4:12b

La première commande télécharge le modèle, par défaut en quantification 4 bits Q4_K_M, autour de 8 Go. La seconde ouvre un chat interactif.

Pour quitter :

/bye

Appeler l’API locale

Ollama expose une API REST compatible OpenAI sur :

http://localhost:11434

Exemple avec curl :

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {
        "role": "user",
        "content": "Explain how transformers work in two sentences."
      }
    ]
  }'

Comme le format suit l’API OpenAI, vous pouvez réutiliser un SDK ou un outil existant en remplaçant simplement l’URL de base par :

http://localhost:11434/v1

Pour un exemple de configuration dans un IDE, l’approche est similaire à notre tutoriel DeepSeek V4 dans Cursor. Remplacez seulement le nom du modèle par :

gemma4:12b

Commandes utiles :

ollama list
ollama ps
ollama show gemma4:12b

ollama list affiche les modèles téléchargés
ollama ps affiche les modèles en cours d’exécution
ollama show gemma4:12b affiche les détails du modèle

Méthode 3 : LM Studio, sans terminal

Si vous préférez une interface graphique, LM Studio fonctionne sur Windows, macOS et Linux.

Étapes :

Téléchargez et installez LM Studio
Recherchez Gemma 4 12B dans le catalogue de modèles
Choisissez une quantification adaptée à votre RAM
Téléchargez le modèle
Ouvrez l’onglet de discussion
Lancez vos premières invites

LM Studio peut aussi démarrer un serveur local compatible OpenAI, généralement sur le port 1234. Vous obtenez donc une API locale sans écrire de configuration manuelle.

C’est une bonne option pour les développeurs qui veulent tester rapidement un modèle, mais aussi pour les rédacteurs, designers ou équipes produit qui préfèrent une interface de chat.

Méthode 4 : llama.cpp, léger et configurable

llama.cpp exécute des modèles GGUF avec peu de dépendances et expose aussi un serveur compatible OpenAI.

Installer llama.cpp

Sur macOS :

brew install llama.cpp

Sur Windows :

winget install llama.cpp

Démarrer un serveur local

Parcourez la collection ggml-org/gemma-4 sur Hugging Face pour trouver le dépôt GGUF correspondant à Gemma 4 12B, puis lancez :

llama-server -hf ggml-org/gemma-4-12B-it-GGUF

Le serveur expose ensuite une API compatible OpenAI sur :

http://localhost:8080/v1

Cette méthode est utile si vous voulez :

réduire les dépendances ;
ajuster finement les paramètres ;
exécuter le modèle sur une machine modeste ;
comprendre le moteur utilisé par plusieurs outils locaux.

Méthode 5 : Hugging Face Transformers, contrôle total en Python

Pour les notebooks, les scripts ou l’affinage, utilisez Transformers. Si vous n’avez pas de GPU local, un notebook Google Colab gratuit peut suffire pour expérimenter.

Installer les dépendances

pip install transformers torch accelerate torchvision
pip install librosa

librosa est utile pour les entrées audio.

Charger le modèle et générer une réponse

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)

model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {
        "role": "system",
        "content": "You are a helpful assistant."
    },
    {
        "role": "user",
        "content": "Write a short joke about saving RAM."
    },
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]

outputs = model.generate(
    **inputs,
    max_new_tokens=1024
)

response = processor.decode(
    outputs[0][input_len:],
    skip_special_tokens=False
)

print(processor.parse_response(response))

Pour activer le mode de raisonnement étape par étape :

enable_thinking=True

Utilisez-le pour les tâches de mathématiques, de logique ou de raisonnement complexe. Désactivez-le pour les conversations simples afin de réduire la latence.

Pour les entrées multimodales, ajoutez du contenu structuré :

image avant le texte : {"type": "image", ...}
audio après le texte : {"type": "audio", ...}

Les poids sont aussi disponibles sur Kaggle. Des exemples complets sont disponibles dans le guide du développeur.

Méthode 6 : Google AI Edge pour mobile et edge

Pour exécuter Gemma 4 12B sur téléphone ou appareil edge, utilisez la pile Google AI Edge.

L’application Google AI Edge Gallery et la CLI LiteRT-LM permettent d’exécuter le modèle directement sur l’appareil.

Exemple avec LiteRT-LM :

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b

litert-lm serve

Cette approche convient aux assistants mobiles hors ligne et aux applications embarquées où les données doivent rester sur l’appareil.

Tester votre API locale Gemma 4 12B avec Apidog

Une fois Gemma 4 12B lancé via Ollama ou llama.cpp, vous avez une API HTTP locale. Avant de l’intégrer dans une application, testez-la avec un client API pour vérifier la structure des requêtes, des réponses et du streaming. Apidog est adapté à ce flux.

Configuration recommandée :

Téléchargez Apidog
Créez un nouveau projet HTTP
Ajoutez une requête POST
Utilisez l’URL Ollama :

http://localhost:11434/v1/chat/completions

Ou l’URL llama.cpp :

http://localhost:8080/v1/chat/completions

Définissez le corps en JSON :

{
  "model": "gemma4:12b",
  "messages": [
    {
      "role": "user",
      "content": "Return a JSON object with two fields: city and country."
    }
  ],
  "stream": false
}

Enregistrez l’URL de base comme variable d’environnement pour basculer entre Ollama et llama.cpp
Ajoutez une assertion pour vérifier que le champ content contient un JSON valide
Testez le streaming avec :

"stream": true

Le bénéfice est simple : vous détectez les erreurs de payload, de nom de modèle ou de structure JSON avant qu’elles n’apparaissent dans le code de votre application.

Pour comparer d’autres clients, consultez aussi les outils de test d’API en ligne gratuits et les meilleures alternatives à Postman. Le même flux de test s’applique aux API compatibles OpenAI, comme dans un workflow de type comment tester les API avec Postman.

Quelle quantification choisir ?

Gemma 4 12B peut s’adapter à plusieurs configurations matérielles selon le niveau de compression.

Version	Mémoire nécessaire	Compromis
Pleine précision	~16 Go	Meilleure qualité
8 bits	~14 Go	Qualité quasi optimale
4 bits Q4_K_M	~8 Go	Légère baisse de qualité, plus accessible

Ollama utilise par défaut une version 4 bits, ce qui explique pourquoi le modèle peut tourner sur un GPU de 8 Go ou un MacBook avec 16 Go de mémoire unifiée.

Si vous avez assez de marge mémoire, testez la version 8 bits pour gagner en qualité. Si votre machine commence à swapper sur disque, revenez en 4 bits.

Quelle méthode choisir ?

Utilisez ce guide rapide :

Vous voulez juste tester ? Utilisez la démo Hugging Face Space.
Vous développez une application ? Utilisez Ollama pour obtenir vite une API locale.
Vous ne voulez pas utiliser le terminal ? Utilisez LM Studio.
Vous voulez une configuration légère et ajustable ? Utilisez llama.cpp.
Vous travaillez en notebook ou en Python ? Utilisez Transformers, éventuellement avec Colab.
Vous ciblez mobile ou edge ? Utilisez Google AI Edge.

Pour la plupart des développeurs, le meilleur point de départ est Ollama. Gardez Transformers pour les scripts avancés, les notebooks et les expérimentations plus contrôlées.

Conseils pratiques pour Gemma 4 12B en local

Choisissez la quantification selon votre RAM. Si le modèle échange sur disque, l’expérience sera lente. La version 4 bits est le choix sûr.
Activez le mode de réflexion seulement quand nécessaire. Utilisez enable_thinking=True pour les problèmes complexes, pas pour un chat simple.
Surveillez la fenêtre de contexte. La fenêtre de 256K est large, mais les longues transcriptions et bases de code peuvent la remplir rapidement.
Validez d’abord vos requêtes dans Apidog. Vérifiez le JSON, les champs et le streaming avant d’intégrer l’API.
Réutilisez le même schéma avec d’autres modèles. Les workflows locaux sont similaires pour Qwen 3.7, MiniMax M3 et Claude Opus 4.8.

FAQ

Gemma 4 12B est-il vraiment gratuit ?

Oui. C’est un modèle à poids ouverts sous licence Apache 2.0. Vous pouvez le télécharger et l’exécuter gratuitement, y compris pour un usage commercial. Vous payez seulement le matériel ou l’infrastructure sur laquelle vous l’exécutez.

Ai-je besoin d’un GPU ?

Non, mais c’est fortement recommandé. La version 4 bits fonctionne sur un GPU de 8 Go ou sur un Mac avec 16 Go de mémoire unifiée. Sur CPU uniquement, le modèle peut fonctionner, mais lentement.

Puis-je utiliser Gemma 4 12B dans Google AI Studio ?

Pas actuellement. AI Studio héberge les modèles 31B et 26B pour le chat gratuit dans le navigateur. Gemma 4 12B est conçu pour une exécution locale ou sur appareil.

L’API locale nécessite-t-elle une clé API ?

Non. Ollama et llama.cpp servent le modèle sur localhost sans clé. Si un outil demande une clé, vous pouvez généralement fournir n’importe quelle chaîne : le serveur local l’ignorera.

Puis-je l’appeler depuis mon code OpenAI existant ?

Oui. Ollama et llama.cpp exposent des endpoints compatibles OpenAI. Remplacez l’URL de base par :

http://localhost:11434/v1

pour Ollama, ou :

http://localhost:8080/v1

pour llama.cpp.

Comment utiliser les entrées image et audio ?

Utilisez Transformers, LM Studio ou les applications AI Edge. Dans Transformers, ajoutez le contenu image avant l’invite textuelle et le contenu audio après.

Lequel est le plus rapide : Ollama ou llama.cpp ?

Ils reposent sur le même moteur sous-jacent. llama.cpp offre moins de surcharge et plus d’options de réglage. Ollama est plus simple à installer. Pour la plupart des usages, la différence reste faible.

DEV Community