Tobias Hoffmann

Posted on Apr 3 • Originally published at apidog.com

Gemma 4'ü Ollama ile Yerel Olarak Çalıştırma: Eksiksiz Rehber

Kısaca

Gemma 4, 3 Nisan 2026'da yayınlandı ve Ollama v0.20.0 aynı gün desteği ekledi. Varsayılan gemma4:e4b modelini iki komutla çekebilir ve çalıştırabilirsiniz. Bu kılavuzda, kurulumu, model seçimini, API kullanımını ve yerel Gemma 4 uç noktalarınızı Apidog ile nasıl test edeceğinizi adım adım bulacaksınız.

Apidog'u hemen deneyin

Giriş

Google, Gemma 4'ü 2 Nisan 2026'da yayınladı. 24 saat içinde Ollama, dört model varyantının tamamında tam destekle v0.20.0'ı gönderdi.

Geliştiriciler için bu büyük bir güncellemedir. Gemma 4, Gemma 3'e göre ciddi bir sıçrama yaşattı: AIME 2026'da %89,2 puan (Gemma 3: %20,8), Codeforces'ta 110 ELO'dan 2150'ye tırmanan kodlama yeteneği, yerel işlev çağırma, düşünme modları ve büyük varyantlarda 256K bağlam penceresi ile geliyor. Tüm bunları kendi donanımınızda çalıştırabilirsiniz.

API destekli uygulamalar geliştiriyorsanız, yerel kurulum size test, hızlı prototipleme ve veri gizliliği için düşük gecikmeli, özelleştirilebilir bir yapay zeka katmanı sunar.

💡 İpucu: Gemma 4 yerel olarak çalışırken, Apidog'un Akıllı Mock özelliği ile şemanıza uygun gerçekçi API yanıtlarını doğrudan yapay zeka ile oluşturabilirsiniz. API'nizin veri yapısını bir kez tanımlayın, Apidog test verilerini sizin için yönetsin.

Bu kılavuzda, kurulumdan ilk yerel API çağrınızı yapmaya kadar tüm teknik adımları bulabilirsiniz.

Gemma 4'teki Yenilikler

Gemma 4, dört farklı model varyantı ile geliyor.

Gemma 3'e göre başlıca farklar:

Mantık yürütme ve kodlama: 31B modeli, LiveCodeBench v6'da %80 puan alıyor. Gemma 3 27B ise %29,1'de kalmıştı.
Uzmanlar Karışımı (MoE) mimarisi: 26B varyantı, çıkarımda sadece 4 milyar aktif parametre ile neredeyse amiral gemisi kalitesinde.
Daha uzun bağlam: E2B ve E4B modelleri 128K; 26B ve 31B ise 256K token destekliyor.
Yerel işlev çağırma: Tüm modellerde, fonksiyon şeması tanımlayarak geçerli JSON döndürme desteği var.
Ses ve görüntü girişi: E2B ve E4B, metin dışında ses/görsel giriş de alabiliyor.
Düşünme modları: Her istek için düşünce zincirini açıp kapatabiliyorsunuz.

Gemma 4 Model Varyantları Açıklandı

Donanımınıza uygun modeli seçin:

Model	Diskteki Boyut	Bağlam	Mimari	En İyisi
`gemma4:e2b`	7.2 GB	128K	Yoğun	Dizüstü, uç cihaz, ses/görüntü
`gemma4:e4b`	9.6 GB	128K	Yoğun	Çoğu geliştirici
`gemma4:26b`	18 GB	256K	MoE (4B)	GB başına en iyi kalite
`gemma4:31b`	20 GB	256K	Yoğun	Maksimum kalite

ollama run gemma4 komutu, varsayılan olarak e4b modelini çalıştırır. 10+ GB VRAM veya Apple Silicon ile uyumlu ve hızlıdır.

26b MoE varyantı, 20+ GB RAM varsa kalite/hız dengesi açısından öne çıkar.

Önkoşullar

Ollama v0.20.0 veya üzeri gereklidir.

Sürüm kontrolü:

ollama --version

Güncelleme:

# macOS
brew upgrade ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

Windows için son yükleyiciye ollama.com adresinden ulaşabilirsiniz.

Donanım gereksinimleri:

e2b: Min 8 GB RAM (16 GB önerilir)
e4b: 10 GB VRAM veya 16 GB unified memory
26b: 20+ GB RAM
31b: 24 GB VRAM veya 32 GB unified memory

Gemma 4'ü Yükleme ve Çalıştırma

Varsayılan e4b modelini indirin ve başlatın:

ollama run gemma4

İlk çalıştırmada yaklaşık 9,6 GB indirilecektir. Komut satırında etkileşimli olarak test edebilirsiniz:

>>> İstemci hataları için HTTP durum kodları nelerdir?

Belirli varyantı çalıştırmak için:

ollama run gemma4:e2b          # Küçük, uç model
ollama run gemma4:26b          # MoE, kalite-boyut dengesi
ollama run gemma4:31b          # Amiral gemisi

Önceden indirmek için:

ollama pull gemma4
ollama pull gemma4:26b

Mevcut modelleri listelemek için:

ollama list

Gemma 4 API'sini Yerel Olarak Kullanma

Ollama, http://localhost:11434 adresinde REST API sunar. Model indirildikten sonra, HTTP istemcisiyle erişim mümkündür.

Bir Tamamlama Oluşturun

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "prompt": "Bir kullanıcı profil API uç noktası için JSON yanıtı yaz",
    "stream": false
  }'

Sohbet Tamamlama (OpenAI Uyumlu)

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4",
    "messages": [
      {
        "role": "user",
        "content": "Bir e-ticaret sipariş API yanıtı için gerçekçi bir JSON mock oluştur"
      }
    ]
  }'

Python İstemcisi

import requests

def ask_gemma4(prompt: str, model: str = "gemma4") -> str:
    response = requests.post(
        "http://localhost:11434/api/generate",
        json={
            "model": model,
            "prompt": prompt,
            "stream": False
        }
    )
    response.raise_for_status()
    return response.json()["response"]

result = ask_gemma4("Bir ödeme API yanıtının içermesi gereken alanları listele")
print(result)

OpenAI Python SDK'sı ile Kullanım

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # Sadece SDK için gerekli
)

response = client.chat.completions.create(
    model="gemma4",
    messages=[
        {
            "role": "system",
            "content": "Gerçekçi API yanıt verilerini JSON formatında oluşturursunuz."
        },
        {
            "role": "user",
            "content": "Bir GET /users/{id} uç noktası için örnek bir yanıt oluştur"
        }
    ]
)

print(response.choices[0].message.content)

Gemma 4 ile Fonksiyon Çağırma Kullanma

Fonksiyon çağırma ile, doğal dilden fonksiyon parametrelerini otomatik çıkarabilirsiniz.

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_user",
            "description": "API'den bir kullanıcıyı ID'ye göre getir",
            "parameters": {
                "type": "object",
                "properties": {
                    "user_id": {
                        "type": "integer",
                        "description": "Benzersiz kullanıcı ID'si"
                    },
                    "include_orders": {
                        "type": "boolean",
                        "description": "Sipariş geçmişinin dahil edilip edilmeyeceği"
                    }
                },
                "required": ["user_id"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="gemma4",
    messages=[
        {"role": "user", "content": "42 numaralı kullanıcıyı sipariş geçmişiyle birlikte getir"}
    ],
    tools=tools,
    tool_choice="auto"
)

tool_call = response.choices[0].message.tool_calls[0]
print(tool_call.function.name)       # get_user
print(tool_call.function.arguments)  # {"user_id": 42, "include_orders": true}

Çıktı, şemanıza uygun ve doğrudan kullanılabilir JSON olacak.

Düşünme Modunu Etkinleştirme

Karmaşık görevlerde düşünme zincirini açabilirsiniz:

response = client.chat.completions.create(
    model="gemma4",
    messages=[
        {
            "role": "user",
            "content": "Uç durumlarla birlikte bir ödeme işleme API'si için eksiksiz bir test senaryosu tasarla"
        }
    ],
    extra_body={"think": True}
)

print(response.choices[0].message.content)

Basit işlemlerde "think": True eklemeyin; gereksiz gecikme yaratır.

Apidog ile Gemma 4 API Yanıtlarını Test Etme

Gemma 4'ü başlattıktan sonra, API uç noktalarınızı sistematik şekilde test edebilirsiniz. Apidog ile bunu kolayca otomatikleştirin.

Uygulama adımları:

Ollama API belirtimini içe aktarın: Yeni bir Apidog projesi oluşturun, temel URL olarak http://localhost:11434 ekleyin.
Uç noktalarınızı tanımlayın:
- POST /api/generate (tek seferlik tamamlama)
- POST /v1/chat/completions (sohbet)
- GET /api/tags (mevcut modeller)
Test Senaryosu oluşturun:
- 1. Adım: GET /api/tags ile gemma4 modelinin listede olduğunu doğrulayın.
- 2. Adım: POST /api/generate ile bir istem gönderin, response alanının boş olmadığını kontrol edin.
- 3. Adım: POST /v1/chat/completions ile sohbet mesajı gönderin ve yanıtın beklenen şemaya uyduğunu doğrulayın.
Yanıt şemalarını doğrulayın: Apidog'un Sözleşme Testi (Contract Testing) ile, API yanıtlarının OpenAPI belirtiminize uygunluğunu test edin.
Akıllı Mock ile paralel geliştirme: Yanıt şemanızı tanımlayın, Apidog gerçekçi verileri otomatik oluşturur; böylece ön uç ekipleri yerel modeli beklemeden geliştirme yapabilir.

Gemma 4 ile Çok Modlu Giriş

E2B ve E4B modellerinde görsel giriş mümkündür. Görseli base64 olarak iletebilirsiniz.

import base64

with open("api_diagram.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="gemma4:e4b",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "image_url",
                    "image_url": {
                        "url": f"data:image/png;base64,{image_data}"
                    }
                },
                {
                    "type": "text",
                    "text": "Bu diyagramda gösterilen API akışını tanımlayın ve olası hata yollarını belirleyin"
                }
            ]
        }
    ]
)

Bu, API diyagramlarını analiz etmek veya görüntüden veri çıkarmak için kullanılabilir.

Sık Karşılaşılan Sorunlar ve Çözümler

Model bulunamıyor: ollama pull gemma4 ile çekin veya ollama list ile kontrol edin.
CPU'da yavaşlık: Gemma 4 GPU için optimize edilmiştir. Yalnızca CPU'da e2b modelini kullanın.
Bellek hataları: VRAM/unified memory kontrol edin. Gerekirse daha küçük model seçin.
Apple Silicon'da yüklenmiyor: Ollama 0.20.0 ve üzerini kullanın.
Port kullanımda: Başka port ile başlatın: OLLAMA_HOST=0.0.0.0:11435 ollama serve
Yanıtlar kesiliyor: JSON'a "options": {"num_ctx": 8192} ekleyin.

Gemma 4 Diğer Yerel Modellere Karşı

Model	En iyi boyut	Bağlam	Fonksiyon çağırma	Kodlama kıyaslama
Gemma 4	e4b (9.6 GB)	128K-256K	Yerel	%80 LiveCodeBench
Llama 3.3	70B-Q4 (40 GB)	128K	Yerel	~%60 LiveCodeBench
Qwen3.6-Plus	72B-Q4 (44 GB)	128K	Yerel	Güçlü
Mistral Small	24B (14 GB)	128K	Yerel	Orta

26B MoE varyantı, düşük maliyetle yüksek kalite sunar. Kodlama için 31B, kompakt kurulumlar için e2b önerilir.

Sonuç

Ollama ile Gemma 4, en yetenekli yerel modellerden biri. Kurulum iki komutla tamamlanır, çoğu geliştirici makinesinde çalışır ve Gemma 3'e göre mantık/kodlama kalitesinde ciddi bir artış sunar.

ollama run gemma4 ile başlayın, API uç noktalarınızı Apidog ile test edin ve iş yükünüz için doğru varyantı seçin. Yerel çıkarımı Apidog'un Akıllı Mock ve Test Senaryoları ile birleştirerek, eksiksiz ve bağımsız bir geliştirme ortamı oluşturabilirsiniz.

SSS

Yeni bir sürüm çıktığında Ollama'daki Gemma 4'ü nasıl güncellerim?

ollama pull gemma4 komutunu tekrar çalıştırın. Ollama güncel sürümü otomatik indirir.

Gemma 4'ü GPU'suz bir makinede çalıştırabilir miyim?

Evet, ancak yavaştır. CPU'da saniyede 1-3 token hızı bekleyin. e2b modeli CPU için en uygunudur.

gemma4:e2b ve gemma4:e4b arasındaki fark nedir?

Her ikisi de kompakt, uç modellerdir. E4B daha fazla parametreyle karmaşık görevlerde daha iyidir. E2B daha küçüktür, ses desteği sunar.

Gemma 4, LangChain ve LlamaIndex ile çalışıyor mu?

Evet. Ollama sağlayıcısını http://localhost:11434 adresine yönlendirin, model adı olarak gemma4 kullanın.

Yerel Gemma 4 API'si, OpenAI API'si ile uyumlu mu?

Büyük oranda evet. /v1/chat/completions uç noktası OpenAI formatını takip eder. base_url ve api_key ayarlarını güncelleyin.

Gemma 4'ün düşünme modunu nasıl kullanırım?

OpenAI SDK'sında extra_body parametresinde "think": true ekleyin veya doğrudan API çağrısında kullanın. Basit görevlerde devre dışı bırakın.

Gemma 4'ü ağdaki diğer makinelere sunabilir miyim?

Evet. Ollama'yı OLLAMA_HOST=0.0.0.0:11434 ollama serve ile başlatın. Diğer makineler aynı porttan erişebilir.

API geliştirme için en iyi Gemma 4 modeli hangisi?

Test ve sahte veri için e4b en uygun seçimdir. Karmaşık analiz için 26b MoE modeli kalite/fiyat avantajı sunar.

DEV Community