DEV Community

Cover image for Gemma 4 12B kostenlos nutzen: 6 funktionierende Methoden 2026
Emre Demir
Emre Demir

Posted on • Originally published at apidog.com

Gemma 4 12B kostenlos nutzen: 6 funktionierende Methoden 2026

Gemma 4 12B ist quelloffen (Open-Weights) und unter Apache 2.0 lizenziert. „Kostenlos“ bedeutet hier: keine API-Rechnung, kein Abo. Sie laden das Modell herunter und führen es lokal auf Ihrem Rechner aus oder testen es direkt im Browser. Die einzigen Kosten sind Ihre vorhandene Hardware.

Probieren Sie Apidog noch heute aus

Wichtig vorab: Die 12B-Version ist für lokale und On-Device-Nutzung gedacht. Die größeren 31B- und 26B-Varianten werden von Google für kostenlose Chats in AI Studio gehostet. Der Hauptvorteil von Gemma 4 12B: Es läuft auf einem Laptop mit 16 GB RAM. Wenn Sie die Spezifikationen zuerst prüfen möchten, starten Sie mit Was ist Gemma 4 12B.

Gemma 4 12B

Im Folgenden finden Sie sechs praktische Wege: vom 60-Sekunden-Browser-Test bis zur lokalen OpenAI-kompatiblen API.

Kurze Zusammenfassung

Methode Was Sie bekommen Am besten geeignet für
Hugging Face Space Browser-Chat, keine Installation Schneller Test in einer Minute
Ollama Lokales Modell + OpenAI-kompatible API Entwickler, ein Befehl
LM Studio Lokale Desktop-App mit GUI Kein Terminal erforderlich
llama.cpp Leichter lokaler API-Server Fortgeschrittene und ressourcenschonende Setups
HF Transformers Python, volle Kontrolle, kostenlose Colab-GPU Notebooks und Feinabstimmung
Google AI Edge On-Device, mobil Telefone und Edge-Hardware

Methode 1: Im Browser ausprobieren, ohne Installation

Der schnellste Einstieg ist der offizielle Demo-Space auf Hugging Face. Sie brauchen keinen Download, kein Konto und keine eigene GPU.

Gemma 4 12B Hugging Face Demo

  1. Öffnen Sie den Gemma 4 12B Demo-Space.
  2. Geben Sie eine Anfrage ein.
  3. Optional: Laden Sie ein Bild oder einen Audio-Clip hoch.
  4. Lesen Sie die Antwort.

Dieser Weg eignet sich für einen ersten Funktionstest, auch für multimodale Eingaben. Wenn Sie Gemma 4 12B in eine App integrieren möchten, verwenden Sie besser eine der lokalen Methoden unten.

Methode 2: Ollama für lokale Entwicklung

Ollama ist der einfachste Weg, Gemma 4 12B lokal auszuführen und direkt eine nutzbare API zu bekommen.

Ollama Gemma 4 12B

Ollama installieren

macOS oder Linux:

curl -fsSL https://ollama.com/install.sh | sh
Enter fullscreen mode Exit fullscreen mode

Windows:

Laden Sie das Installationsprogramm von ollama.com herunter und führen Sie es aus.

Modell herunterladen und starten

ollama pull gemma4:12b
ollama run gemma4:12b
Enter fullscreen mode Exit fullscreen mode

Der erste Befehl lädt das Modell herunter. Standardmäßig nutzt Ollama eine 4-Bit-Q4_K_M-Build mit etwa 8 GB. Der zweite Befehl startet einen interaktiven Chat.

Zum Beenden:

/bye
Enter fullscreen mode Exit fullscreen mode

Lokale API verwenden

Ollama stellt eine OpenAI-kompatible REST-API unter http://localhost:11434 bereit. Sie brauchen keinen API-Key und keine Cloud-Verbindung.

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {
        "role": "user",
        "content": "Explain how transformers work in two sentences."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Da der Endpunkt dem OpenAI-Format folgt, können Sie viele bestehende SDKs und Tools weiterverwenden. Setzen Sie einfach die Base URL auf:

http://localhost:11434/v1
Enter fullscreen mode Exit fullscreen mode

Wenn Sie ein IDE-Setup bauen, entspricht das Muster der DeepSeek V4 in Cursor Anleitung. Tauschen Sie dort nur den Modellnamen gegen gemma4:12b.

Nützliche Ollama-Befehle:

ollama list
ollama ps
ollama show gemma4:12b
Enter fullscreen mode Exit fullscreen mode
  • ollama list: zeigt heruntergeladene Modelle
  • ollama ps: zeigt laufende Modelle
  • ollama show gemma4:12b: zeigt Modelldetails

Methode 3: LM Studio ohne Terminal

Wenn Sie keine Kommandozeile verwenden möchten, ist LM Studio eine einfache Desktop-Option für Windows, macOS und Linux.

Vorgehen:

  1. LM Studio herunterladen und installieren.
  2. Im Modellkatalog nach Gemma 4 12B suchen.
  3. Eine Quantisierung auswählen, die zu Ihrem RAM passt.
  4. Modell herunterladen.
  5. Chat-Tab öffnen und Eingabe starten.

LM Studio kann außerdem einen lokalen OpenAI-kompatiblen Server starten, normalerweise auf Port 1234. Damit erhalten Sie eine API, ohne eigene Server-Konfiguration schreiben zu müssen.

Typische Base URL:

http://localhost:1234/v1
Enter fullscreen mode Exit fullscreen mode

Diese Methode eignet sich für Teams, die schnell lokal testen möchten, aber kein Terminal-Setup brauchen.

Methode 4: llama.cpp für leichte lokale Server

llama.cpp führt GGUF-Modelle mit wenig Overhead aus und enthält einen eigenen OpenAI-kompatiblen Server.

Installation

macOS:

brew install llama.cpp
Enter fullscreen mode Exit fullscreen mode

Windows:

winget install llama.cpp
Enter fullscreen mode Exit fullscreen mode

Server starten

Suchen Sie auf Hugging Face in der Sammlung ggml-org/gemma-4 nach dem passenden 12B-GGUF-Repo. Starten Sie anschließend den Server:

llama-server -hf ggml-org/gemma-4-12B-it-GGUF
Enter fullscreen mode Exit fullscreen mode

Danach ist die API erreichbar unter:

http://localhost:8080/v1
Enter fullscreen mode Exit fullscreen mode

Diese Methode ist sinnvoll, wenn Sie minimale Abhängigkeiten, niedrigen Overhead oder mehr Kontrolle über Laufzeitparameter möchten. llama.cpp ist außerdem die Engine hinter mehreren anderen lokalen LLM-Tools.

Methode 5: Hugging Face Transformers für Python und Notebooks

Wenn Sie Gemma 4 12B in Python-Skripten, Notebooks oder für Feinabstimmung verwenden möchten, nutzen Sie Hugging Face Transformers. Ohne lokale GPU können Sie auch ein kostenloses Google-Colab-Notebook verwenden.

Abhängigkeiten installieren

pip install transformers torch accelerate torchvision

# Für Audio- und Video-Input:
pip install librosa
Enter fullscreen mode Exit fullscreen mode

Modell laden und Text generieren

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]

outputs = model.generate(
    **inputs,
    max_new_tokens=1024
)

response = processor.decode(
    outputs[0][input_len:],
    skip_special_tokens=False
)

print(processor.parse_response(response))
Enter fullscreen mode Exit fullscreen mode

Für schwierigere Aufgaben können Sie den Denkmodus aktivieren:

enable_thinking=True
Enter fullscreen mode Exit fullscreen mode

Für Bild- oder Audioeingaben ergänzen Sie den Nachrichteninhalt um strukturierte Inhalte, z. B. Bildinhalte vor dem Text und Audioinhalte danach. Die Gewichte sind auch auf Kaggle verfügbar. Vollständige Beispiele finden Sie im Entwicklerhandbuch.

Methode 6: Google AI Edge für On-Device und Mobile

Für Telefone oder Edge-Geräte liefert Google den AI Edge Stack. Die Google AI Edge Gallery App und die LiteRT-LM CLI können die 12B-Version direkt auf dem Gerät ausführen.

Ein lokaler LiteRT-LM-Server lässt sich so vorbereiten:

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b

litert-lm serve
Enter fullscreen mode Exit fullscreen mode

Dieser Weg ist für mobile Offline-Assistenten und eingebettete Anwendungen geeignet, bei denen Daten das Gerät nicht verlassen sollen.

Lokale Gemma 4 12B API mit Apidog testen

Wenn Gemma 4 12B über Ollama oder llama.cpp läuft, haben Sie eine echte HTTP-API auf Ihrem Rechner. Bevor Sie diese API in eine Anwendung integrieren, sollten Sie Request- und Response-Struktur in einem API-Client validieren. Dafür können Sie Apidog verwenden.

Apidog API Test

Setup in Apidog

  1. Apidog herunterladen und ein neues HTTP-Projekt erstellen.
  2. Eine POST-Anfrage anlegen.
  3. Für Ollama diese URL verwenden:
http://localhost:11434/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode

Für llama.cpp:

http://localhost:8080/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode
  1. Body-Typ auf JSON setzen.
  2. Beispiel-Payload einfügen:
{
  "model": "gemma4:12b",
  "messages": [
    {
      "role": "user",
      "content": "Return a JSON object with two fields: city and country."
    }
  ],
  "stream": false
}
Enter fullscreen mode Exit fullscreen mode
  1. Anfrage senden und prüfen, ob die Antwort das erwartete Format hat.

Base URL als Variable speichern

Legen Sie eine Umgebungsvariable an, z. B.:

{{base_url}}
Enter fullscreen mode Exit fullscreen mode

Dann können Sie zwischen Servern wechseln:

http://localhost:11434/v1
http://localhost:8080/v1
Enter fullscreen mode Exit fullscreen mode

Ihre Request-URL wird dadurch portabel:

{{base_url}}/chat/completions
Enter fullscreen mode Exit fullscreen mode

JSON-Antwort prüfen

Wenn Ihre App später JSON erwartet, testen Sie das frühzeitig. Eine einfache Prompt-Strategie ist:

{
  "model": "gemma4:12b",
  "messages": [
    {
      "role": "user",
      "content": "Return only valid JSON. No markdown. Schema: {\"city\": string, \"country\": string}."
    }
  ],
  "stream": false
}
Enter fullscreen mode Exit fullscreen mode

So erkennen Sie falsch formatierte Prompts oder Feldnamen, bevor der Fehler in Ihrem Anwendungscode landet.

Zum Vergleich von API-Clients finden Sie weitere Optionen in den Artikeln zu kostenlosen Online-API-Test-Tools und den besten Postman-Alternativen. Der gleiche Ablauf funktioniert auch für Workflows im Postman-Stil.

Welche Quantisierung sollten Sie wählen?

Gemma 4 12B passt je nach Komprimierung auf unterschiedliche Hardware.

Build Benötigter Speicher Kompromiss
Volle Präzision ~16 GB Beste Qualität
8-Bit ~14 GB Nahezu volle Qualität
4-Bit Q4_K_M ~8 GB Leichter Qualitätsverlust, läuft breit verfügbar

Ollama verwendet standardmäßig den 4-Bit-Build. Deshalb läuft Gemma 4 12B auf einer 8-GB-GPU oder einem 16-GB-MacBook. Wenn Sie genug Speicher haben, kann 8-Bit einen Qualitätsschub bringen.

Praktische Regel:

  • Wenig RAM oder Laptop: 4-Bit verwenden.
  • Mehr Speicher verfügbar: 8-Bit testen.
  • Qualität wichtiger als Speicher: volle Präzision prüfen.

Welche kostenlose Methode sollten Sie wählen?

Schnelle Entscheidungshilfe:

  • Nur neugierig? Hugging Face Space verwenden.
  • Sie entwickeln Software? Ollama für eine lokale API mit einem Befehl.
  • Sie möchten kein Terminal? LM Studio.
  • Sie wollen wenig Overhead? llama.cpp.
  • Sie arbeiten in Python oder Colab? Hugging Face Transformers.
  • Sie bauen für Telefon oder Edge-Gerät? Google AI Edge.

Für die meisten Entwickler ist Ollama der beste Startpunkt. Transformers bleibt nützlich, wenn Sie mehr Kontrolle im Python-Stack brauchen.

Tipps für lokale Gemma-Setups

  • Quantisierung an RAM anpassen. Wenn das Modell auf die Festplatte auslagert, wird es langsam. 4-Bit ist der sichere Standard.
  • Denkmodus gezielt verwenden. Setzen Sie enable_thinking=True für mathematische oder mehrstufige Aufgaben. Für schnelle Chats bleibt er besser deaktiviert.
  • Kontextfenster nicht verschwenden. 256K ist groß, aber lange Transkripte, Logs und Codebasen summieren sich schnell.
  • Requests zuerst in Apidog validieren. Prüfen Sie JSON-Struktur, Streaming und Feldnamen, bevor Ihre App davon abhängt.
  • Andere lokale Modelle vergleichen. Das gleiche Muster funktioniert auch für Qwen 3.7, MiniMax M3 und Claude Opus 4.8.

FAQ

Ist Gemma 4 12B wirklich kostenlos?

Ja. Gemma 4 12B ist Apache-2.0-lizenziert, quelloffen als Open-Weights verfügbar und kostenlos herunterzuladen und auszuführen, auch kommerziell. Sie zahlen nur für die Hardware oder Cloud, auf der Sie es ausführen.

Benötige ich eine GPU?

Nein, aber eine GPU hilft. Der 4-Bit-Build läuft auf einer 8-GB-GPU oder einem 16-GB-Unified-Memory-Mac. CPU-only funktioniert ebenfalls, ist aber langsam.

Kann ich Gemma 4 12B in Google AI Studio verwenden?

Derzeit nicht. AI Studio hostet die 31B- und 26B-Modelle für kostenlosen Browser-Chat. Die 12B-Version ist für lokale und On-Device-Nutzung konzipiert.

Benötigt die lokale API einen API-Key?

Nein. Ollama und llama.cpp stellen das Modell lokal ohne Schlüssel bereit. Wenn ein Tool trotzdem ein Key-Feld verlangt, können Sie eine Platzhalterzeichenfolge eintragen. Der lokale Server ignoriert sie.

Kann ich bestehenden OpenAI-Code weiterverwenden?

Ja. Ollama und llama.cpp stellen OpenAI-kompatible Endpunkte bereit.

Für Ollama:

http://localhost:11434/v1
Enter fullscreen mode Exit fullscreen mode

Für llama.cpp:

http://localhost:8080/v1
Enter fullscreen mode Exit fullscreen mode

Passen Sie die Base URL an und behalten Sie den Rest Ihres Codes weitgehend bei.

Wie nutze ich Bild- und Audiofunktionen?

Verwenden Sie Transformers, LM Studio oder AI-Edge-Apps, die multimodale Eingaben unterstützen. Fügen Sie Bildinhalte vor der Texteingabe und Audioinhalte danach hinzu.

Was ist schneller: Ollama oder llama.cpp?

Beide nutzen dieselbe zugrunde liegende Engine. llama.cpp hat weniger Overhead und mehr Optimierungsoptionen. Ollama ist einfacher einzurichten. Für die meisten lokalen Entwicklungs-Setups ist der Unterschied gering.

Top comments (0)