Emre Demir

Posted on Jun 4 • Originally published at apidog.com

Gemma 4 12B kostenlos nutzen: 6 funktionierende Methoden 2026

Gemma 4 12B ist quelloffen (Open-Weights) und unter Apache 2.0 lizenziert. „Kostenlos“ bedeutet hier: keine API-Rechnung, kein Abo. Sie laden das Modell herunter und führen es lokal auf Ihrem Rechner aus oder testen es direkt im Browser. Die einzigen Kosten sind Ihre vorhandene Hardware.

Probieren Sie Apidog noch heute aus

Wichtig vorab: Die 12B-Version ist für lokale und On-Device-Nutzung gedacht. Die größeren 31B- und 26B-Varianten werden von Google für kostenlose Chats in AI Studio gehostet. Der Hauptvorteil von Gemma 4 12B: Es läuft auf einem Laptop mit 16 GB RAM. Wenn Sie die Spezifikationen zuerst prüfen möchten, starten Sie mit Was ist Gemma 4 12B.

Im Folgenden finden Sie sechs praktische Wege: vom 60-Sekunden-Browser-Test bis zur lokalen OpenAI-kompatiblen API.

Kurze Zusammenfassung

Methode	Was Sie bekommen	Am besten geeignet für
Hugging Face Space	Browser-Chat, keine Installation	Schneller Test in einer Minute
Ollama	Lokales Modell + OpenAI-kompatible API	Entwickler, ein Befehl
LM Studio	Lokale Desktop-App mit GUI	Kein Terminal erforderlich
llama.cpp	Leichter lokaler API-Server	Fortgeschrittene und ressourcenschonende Setups
HF Transformers	Python, volle Kontrolle, kostenlose Colab-GPU	Notebooks und Feinabstimmung
Google AI Edge	On-Device, mobil	Telefone und Edge-Hardware

Methode 1: Im Browser ausprobieren, ohne Installation

Der schnellste Einstieg ist der offizielle Demo-Space auf Hugging Face. Sie brauchen keinen Download, kein Konto und keine eigene GPU.

Öffnen Sie den Gemma 4 12B Demo-Space.
Geben Sie eine Anfrage ein.
Optional: Laden Sie ein Bild oder einen Audio-Clip hoch.
Lesen Sie die Antwort.

Dieser Weg eignet sich für einen ersten Funktionstest, auch für multimodale Eingaben. Wenn Sie Gemma 4 12B in eine App integrieren möchten, verwenden Sie besser eine der lokalen Methoden unten.

Methode 2: Ollama für lokale Entwicklung

Ollama ist der einfachste Weg, Gemma 4 12B lokal auszuführen und direkt eine nutzbare API zu bekommen.

Ollama installieren

macOS oder Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows:

Laden Sie das Installationsprogramm von ollama.com herunter und führen Sie es aus.

Modell herunterladen und starten

ollama pull gemma4:12b
ollama run gemma4:12b

Der erste Befehl lädt das Modell herunter. Standardmäßig nutzt Ollama eine 4-Bit-Q4_K_M-Build mit etwa 8 GB. Der zweite Befehl startet einen interaktiven Chat.

Zum Beenden:

/bye

Lokale API verwenden

Ollama stellt eine OpenAI-kompatible REST-API unter http://localhost:11434 bereit. Sie brauchen keinen API-Key und keine Cloud-Verbindung.

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {
        "role": "user",
        "content": "Explain how transformers work in two sentences."
      }
    ]
  }'

Da der Endpunkt dem OpenAI-Format folgt, können Sie viele bestehende SDKs und Tools weiterverwenden. Setzen Sie einfach die Base URL auf:

http://localhost:11434/v1

Wenn Sie ein IDE-Setup bauen, entspricht das Muster der DeepSeek V4 in Cursor Anleitung. Tauschen Sie dort nur den Modellnamen gegen gemma4:12b.

Nützliche Ollama-Befehle:

ollama list
ollama ps
ollama show gemma4:12b

ollama list: zeigt heruntergeladene Modelle
ollama ps: zeigt laufende Modelle
ollama show gemma4:12b: zeigt Modelldetails

Methode 3: LM Studio ohne Terminal

Wenn Sie keine Kommandozeile verwenden möchten, ist LM Studio eine einfache Desktop-Option für Windows, macOS und Linux.

Vorgehen:

LM Studio herunterladen und installieren.
Im Modellkatalog nach Gemma 4 12B suchen.
Eine Quantisierung auswählen, die zu Ihrem RAM passt.
Modell herunterladen.
Chat-Tab öffnen und Eingabe starten.

LM Studio kann außerdem einen lokalen OpenAI-kompatiblen Server starten, normalerweise auf Port 1234. Damit erhalten Sie eine API, ohne eigene Server-Konfiguration schreiben zu müssen.

Typische Base URL:

http://localhost:1234/v1

Diese Methode eignet sich für Teams, die schnell lokal testen möchten, aber kein Terminal-Setup brauchen.

Methode 4: llama.cpp für leichte lokale Server

llama.cpp führt GGUF-Modelle mit wenig Overhead aus und enthält einen eigenen OpenAI-kompatiblen Server.

Installation

macOS:

brew install llama.cpp

Windows:

winget install llama.cpp

Server starten

Suchen Sie auf Hugging Face in der Sammlung ggml-org/gemma-4 nach dem passenden 12B-GGUF-Repo. Starten Sie anschließend den Server:

llama-server -hf ggml-org/gemma-4-12B-it-GGUF

Danach ist die API erreichbar unter:

http://localhost:8080/v1

Diese Methode ist sinnvoll, wenn Sie minimale Abhängigkeiten, niedrigen Overhead oder mehr Kontrolle über Laufzeitparameter möchten. llama.cpp ist außerdem die Engine hinter mehreren anderen lokalen LLM-Tools.

Methode 5: Hugging Face Transformers für Python und Notebooks

Wenn Sie Gemma 4 12B in Python-Skripten, Notebooks oder für Feinabstimmung verwenden möchten, nutzen Sie Hugging Face Transformers. Ohne lokale GPU können Sie auch ein kostenloses Google-Colab-Notebook verwenden.

Abhängigkeiten installieren

pip install transformers torch accelerate torchvision

# Für Audio- und Video-Input:
pip install librosa

Modell laden und Text generieren

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]

outputs = model.generate(
    **inputs,
    max_new_tokens=1024
)

response = processor.decode(
    outputs[0][input_len:],
    skip_special_tokens=False
)

print(processor.parse_response(response))

Für schwierigere Aufgaben können Sie den Denkmodus aktivieren:

enable_thinking=True

Für Bild- oder Audioeingaben ergänzen Sie den Nachrichteninhalt um strukturierte Inhalte, z. B. Bildinhalte vor dem Text und Audioinhalte danach. Die Gewichte sind auch auf Kaggle verfügbar. Vollständige Beispiele finden Sie im Entwicklerhandbuch.

Methode 6: Google AI Edge für On-Device und Mobile

Für Telefone oder Edge-Geräte liefert Google den AI Edge Stack. Die Google AI Edge Gallery App und die LiteRT-LM CLI können die 12B-Version direkt auf dem Gerät ausführen.

Ein lokaler LiteRT-LM-Server lässt sich so vorbereiten:

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b

litert-lm serve

Dieser Weg ist für mobile Offline-Assistenten und eingebettete Anwendungen geeignet, bei denen Daten das Gerät nicht verlassen sollen.

Lokale Gemma 4 12B API mit Apidog testen

Wenn Gemma 4 12B über Ollama oder llama.cpp läuft, haben Sie eine echte HTTP-API auf Ihrem Rechner. Bevor Sie diese API in eine Anwendung integrieren, sollten Sie Request- und Response-Struktur in einem API-Client validieren. Dafür können Sie Apidog verwenden.

Setup in Apidog

Apidog herunterladen und ein neues HTTP-Projekt erstellen.
Eine POST-Anfrage anlegen.
Für Ollama diese URL verwenden:

http://localhost:11434/v1/chat/completions

Für llama.cpp:

http://localhost:8080/v1/chat/completions

Body-Typ auf JSON setzen.
Beispiel-Payload einfügen:

{
  "model": "gemma4:12b",
  "messages": [
    {
      "role": "user",
      "content": "Return a JSON object with two fields: city and country."
    }
  ],
  "stream": false
}

Anfrage senden und prüfen, ob die Antwort das erwartete Format hat.

Base URL als Variable speichern

Legen Sie eine Umgebungsvariable an, z. B.:

{{base_url}}

Dann können Sie zwischen Servern wechseln:

http://localhost:11434/v1
http://localhost:8080/v1

Ihre Request-URL wird dadurch portabel:

{{base_url}}/chat/completions

JSON-Antwort prüfen

Wenn Ihre App später JSON erwartet, testen Sie das frühzeitig. Eine einfache Prompt-Strategie ist:

{
  "model": "gemma4:12b",
  "messages": [
    {
      "role": "user",
      "content": "Return only valid JSON. No markdown. Schema: {\"city\": string, \"country\": string}."
    }
  ],
  "stream": false
}

So erkennen Sie falsch formatierte Prompts oder Feldnamen, bevor der Fehler in Ihrem Anwendungscode landet.

Zum Vergleich von API-Clients finden Sie weitere Optionen in den Artikeln zu kostenlosen Online-API-Test-Tools und den besten Postman-Alternativen. Der gleiche Ablauf funktioniert auch für Workflows im Postman-Stil.

Welche Quantisierung sollten Sie wählen?

Gemma 4 12B passt je nach Komprimierung auf unterschiedliche Hardware.

Build	Benötigter Speicher	Kompromiss
Volle Präzision	~16 GB	Beste Qualität
8-Bit	~14 GB	Nahezu volle Qualität
4-Bit Q4_K_M	~8 GB	Leichter Qualitätsverlust, läuft breit verfügbar

Ollama verwendet standardmäßig den 4-Bit-Build. Deshalb läuft Gemma 4 12B auf einer 8-GB-GPU oder einem 16-GB-MacBook. Wenn Sie genug Speicher haben, kann 8-Bit einen Qualitätsschub bringen.

Praktische Regel:

Wenig RAM oder Laptop: 4-Bit verwenden.
Mehr Speicher verfügbar: 8-Bit testen.
Qualität wichtiger als Speicher: volle Präzision prüfen.

Welche kostenlose Methode sollten Sie wählen?

Schnelle Entscheidungshilfe:

Nur neugierig? Hugging Face Space verwenden.
Sie entwickeln Software? Ollama für eine lokale API mit einem Befehl.
Sie möchten kein Terminal? LM Studio.
Sie wollen wenig Overhead? llama.cpp.
Sie arbeiten in Python oder Colab? Hugging Face Transformers.
Sie bauen für Telefon oder Edge-Gerät? Google AI Edge.

Für die meisten Entwickler ist Ollama der beste Startpunkt. Transformers bleibt nützlich, wenn Sie mehr Kontrolle im Python-Stack brauchen.

Tipps für lokale Gemma-Setups

Quantisierung an RAM anpassen. Wenn das Modell auf die Festplatte auslagert, wird es langsam. 4-Bit ist der sichere Standard.
Denkmodus gezielt verwenden. Setzen Sie enable_thinking=True für mathematische oder mehrstufige Aufgaben. Für schnelle Chats bleibt er besser deaktiviert.
Kontextfenster nicht verschwenden. 256K ist groß, aber lange Transkripte, Logs und Codebasen summieren sich schnell.
Requests zuerst in Apidog validieren. Prüfen Sie JSON-Struktur, Streaming und Feldnamen, bevor Ihre App davon abhängt.
Andere lokale Modelle vergleichen. Das gleiche Muster funktioniert auch für Qwen 3.7, MiniMax M3 und Claude Opus 4.8.

FAQ

Ist Gemma 4 12B wirklich kostenlos?

Ja. Gemma 4 12B ist Apache-2.0-lizenziert, quelloffen als Open-Weights verfügbar und kostenlos herunterzuladen und auszuführen, auch kommerziell. Sie zahlen nur für die Hardware oder Cloud, auf der Sie es ausführen.

Benötige ich eine GPU?

Nein, aber eine GPU hilft. Der 4-Bit-Build läuft auf einer 8-GB-GPU oder einem 16-GB-Unified-Memory-Mac. CPU-only funktioniert ebenfalls, ist aber langsam.

Kann ich Gemma 4 12B in Google AI Studio verwenden?

Derzeit nicht. AI Studio hostet die 31B- und 26B-Modelle für kostenlosen Browser-Chat. Die 12B-Version ist für lokale und On-Device-Nutzung konzipiert.

Benötigt die lokale API einen API-Key?

Nein. Ollama und llama.cpp stellen das Modell lokal ohne Schlüssel bereit. Wenn ein Tool trotzdem ein Key-Feld verlangt, können Sie eine Platzhalterzeichenfolge eintragen. Der lokale Server ignoriert sie.

Kann ich bestehenden OpenAI-Code weiterverwenden?

Ja. Ollama und llama.cpp stellen OpenAI-kompatible Endpunkte bereit.

Für Ollama:

http://localhost:11434/v1