Tobias Hoffmann

Posted on Jun 4 • Originally published at apidog.com

Gemma 4 12B Ücretsiz Nasıl Kullanılır: 2026'da 6 Çalışan Yöntem

Gemma 4 12B açık ağırlıklı ve Apache 2.0 lisanslıdır; bu yüzden buradaki “ücretsiz” gerçekten ücretsiz demektir. API faturası veya abonelik yoktur. Modeli indirip kendi makinenizde çalıştırabilir ya da bir tarayıcı sekmesinde hızlıca deneyebilirsiniz. Tek maliyet, kullandığınız donanımdır.

Apidog'u bugün deneyin

Önceden bilmeniz gereken nokta: 12B, yerel ve cihaz içi kullanım için tasarlanmıştır. Daha büyük 31B ve 26B modelleri, Google’ın AI Studio’da ücretsiz sohbet için barındırdığı modellerdir. 12B’nin ana avantajı, 16 GB belleğe sahip bir dizüstü bilgisayarda çalışabilmesidir. Aşağıdaki yöntemler, Gemma 4 12B’yi donanımınızda hızlıca denemeye ve yerel API olarak kullanmaya odaklanır. Modele yeni başlıyorsanız özellikler için Gemma 4 12B nedir yazısıyla başlayın.

Bu rehberde, 60 saniyelik tarayıcı demosundan uygulamanıza bağlayabileceğiniz yerel API’ye kadar altı pratik yöntem kullanacağız.

Hızlı özet

Yöntem	Ne elde edersiniz	En iyisi
Hugging Face Space	Tarayıcı sohbeti, sıfır kurulum	Bir dakikada denemek için
Ollama	Yerel model + OpenAI uyumlu API	Geliştiriciler, tek komutla
LM Studio	GUI’li yerel masaüstü uygulaması	Terminal kullanmak istemeyenler
llama.cpp	Hafif yerel API sunucusu	Gelişmiş ve düşük maliyetli kurulumlar
HF Transformers	Python, tam kontrol, ücretsiz Colab GPU	Not defterleri ve ince ayar
Google AI Edge	Cihaz üzerinde, mobil	Telefonlar ve uç cihaz donanımı

Yöntem 1: Tarayıcınızda deneyin

Gemma 4 12B’yi kurulum yapmadan görmek istiyorsanız en hızlı yol, Hugging Face’deki resmi demo alanını kullanmaktır. İndirme, hesap veya yerel GPU gerekmez.

Adımlar:

Gemma 4 12B demo Alanını açın.
Bir metin istemi yazın.
İsterseniz bir resim veya ses klibi yükleyin.
Yanıtı kontrol edin.

Bu yöntem, modeli hızlıca değerlendirmek için uygundur. Alan, resim ve ses girişi kabul ettiği için çok modlu yetenekleri de test edebilirsiniz. Bir uygulama geliştirmeye başlayacaksanız aşağıdaki yerel yöntemlerden birine geçin.

Yöntem 2: Ollama ile yerel API çalıştırın

Ollama, Gemma 4 12B’yi yerel olarak çalıştırmanın ve OpenAI uyumlu bir API elde etmenin en basit yollarından biridir.

Ollama’yı kurun

macOS veya Linux’ta:

curl -fsSL https://ollama.com/install.sh | sh

Windows’ta ollama.com adresinden yükleyiciyi indirip çalıştırın.

Modeli indirin ve başlatın

ollama pull gemma4:12b
ollama run gemma4:12b

İlk komut modeli indirir. Varsayılan yapı 4-bit Q4_K_M’dir ve yaklaşık 8 GB yer kaplar. İkinci komut etkileşimli sohbet oturumu başlatır.

Çıkmak için:

/bye

OpenAI uyumlu yerel API’yi çağırın

Ollama, varsayılan olarak şu adreste REST API sunar:

http://localhost:11434

Örnek istek:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {
        "role": "user",
        "content": "Explain how transformers work in two sentences."
      }
    ]
  }'

OpenAI formatıyla uyumlu olduğu için OpenAI SDK’sı veya OpenAI uyumlu araçlar kullanıyorsanız temel URL’yi şu şekilde değiştirmeniz yeterlidir:

http://localhost:11434/v1

Bu yaklaşım editörler, agent framework’leri ve API istemcileriyle kullanılabilir. IDE kurulumu için yöntem, Cursor’da DeepSeek V4 kılavuzumuza benzerdir; yalnızca model adını gemma4:12b yapın.

Faydalı Ollama komutları:

ollama list
ollama ps
ollama show gemma4:12b

Ne işe yararlar:

ollama list: indirilen modelleri gösterir
ollama ps: çalışan modelleri gösterir
ollama show gemma4:12b: model ayrıntılarını yazdırır

Yöntem 3: LM Studio ile terminalsiz çalıştırın

Komut satırı kullanmak istemiyorsanız LM Studio, Windows, macOS ve Linux için masaüstü uygulaması sağlar.

Adımlar:

LM Studio’yu indirin ve kurun.
Model kataloğunda Gemma 4 12B arayın.
RAM’inize uygun bir niceleme seçin.
Modeli indirin.
Sohbet sekmesini açın ve istemlerinizi test edin.

LM Studio ayrıca genellikle 1234 portunda OpenAI uyumlu yerel bir sunucu çalıştırır. Böylece kod yazmadan yerel API deneyebilirsiniz.

Bu yöntem özellikle terminal kullanmak istemeyen tasarımcılar, yazarlar ve görsel arayüzle çalışmayı tercih eden ekipler için uygundur.

Yöntem 4: llama.cpp ile hafif API sunucusu kurun

llama.cpp, GGUF modellerini düşük ek yükle çalıştırır ve OpenAI uyumlu bir sunucu sağlar.

Kurulum:

# macOS
brew install llama.cpp

# Windows
winget install llama.cpp

Ardından resmi GGUF yapısını hedefleyen bir sunucu başlatın. Tam 12B depo adını bulmak için Hugging Face’deki ggml-org/gemma-4 koleksiyonunu kontrol edin ve ilgili adı llama-server komutuna geçirin:

llama-server -hf ggml-org/gemma-4-12B-it-GGUF

Sunucu şu adreste OpenAI uyumlu API sağlar:

http://localhost:8080/v1

Bu yöntem, minimum bağımlılık istediğinizde veya mütevazı donanımda çalıştığınızda iyi bir seçenektir. Ayrıca birçok yerel LLM aracının altında benzer çalışma mantığı bulunduğu için llama.cpp öğrenmek pratik avantaj sağlar.

Yöntem 5: Hugging Face Transformers ile Python’dan çalıştırın

Not defteri, betik veya ince ayar senaryoları için modeli Python’da Transformers ile çalıştırabilirsiniz. Yerel GPU’nuz yoksa ücretsiz Google Colab not defteri kullanabilirsiniz.

Kütüphaneleri kurun:

pip install transformers torch accelerate torchvision

# Ses ve video girişi için
pip install librosa

Talimatlara göre ayarlanmış modeli yükleyin:

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)

response = processor.decode(
    outputs[0][input_len:],
    skip_special_tokens=False
)

print(processor.parse_response(response))

Daha zor görevlerde adım adım akıl yürütme modunu açmak için:

enable_thinking=True

Resim veya ses dosyası beslemek için içerik listesine metinden önce {"type": "image", ...} ve sonra {"type": "audio", ...} içeren öğeler ekleyin. Ağırlıklar Kaggle’da da mevcuttur. Daha ayrıntılı kod desenleri geliştirici kılavuzunda bulunur.

Yöntem 6: Google AI Edge ile cihaz üzerinde çalıştırın

Gemma 4 12B’yi telefonda veya uç cihazda çalıştırmak için Google, AI Edge yığınını sunar. Google AI Edge Gallery uygulaması ve LiteRT-LM CLI, 12B’yi cihaz üzerinde çalıştırabilir.

LiteRT-LM ile yerel sunucu başlatmak için:

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b

litert-lm serve

Bu yol, verilerin cihazdan ayrılmadığı çevrimdışı mobil asistanlar ve gömülü uygulamalar için uygundur.

Yerel Gemma 4 12B API’nizi Apidog ile test edin

Gemma 4 12B’yi Ollama veya llama.cpp ile çalıştırdığınızda makinenizde gerçek bir HTTP API elde edersiniz. Bunu uygulamanıza bağlamadan önce istek ve yanıt biçimini bir API istemcisinde doğrulamak iyi bir pratiktir. Apidog bu iş akışı için kullanılabilir.

Temiz bir test kurulumu:

Apidog’u indirin ve yeni bir HTTP projesi oluşturun.
Şu adrese bir POST isteği ekleyin:

http://localhost:11434/v1/chat/completions

Gövde tipini JSON olarak ayarlayın.
Aşağıdaki örnek yükü yapıştırın:

{
  "model": "gemma4:12b",
  "messages": [
    {
      "role": "user",
      "content": "Return a JSON object with two fields: city and country."
    }
  ],
  "stream": false
}

Temel URL’yi ortam değişkeni olarak kaydedin. Böylece Ollama (:11434) ve llama.cpp (:8080) arasında tek tıklamayla geçebilirsiniz.
Modelin content alanında geçerli JSON döndürdüğünü doğrulamak için yanıt onayı ekleyin.
Akışı test etmek için "stream": true yapın ve dönen token’ları izleyin.

Bu sayede bozuk istemleri, hatalı alan adlarını veya beklenmeyen yanıt biçimlerini uygulama kodunun içinde değil, API testi aşamasında yakalarsınız.

API istemcilerini karşılaştırıyorsanız ücretsiz çevrimiçi API test araçları ve en iyi Postman alternatifleri özetlerine bakabilirsiniz. Aynı test akışı OpenAI uyumlu herhangi bir uç nokta için çalışır; bu yüzden alışkanlıklar Postman tarzı iş akışlarıyla API test etmeye doğrudan aktarılır.

Hangi nicelemeyi seçmelisiniz?

Gemma 4 12B, kullanılan sıkıştırma seviyesine göre farklı bellek gereksinimlerine sahiptir.

Yapı	Gerekli bellek	Takas
Tam hassasiyet	~16 GB	En iyi kalite
8-bit	~14 GB	Neredeyse tam kalite
4-bit (Q4_K_M)	~8 GB	Hafif kalite düşüşü, geniş uyumluluk

Ollama varsayılan olarak 4-bit yapıyı kullanır. Bu yüzden 8 GB GPU’da veya 16 GB birleşik belleğe sahip MacBook’ta çalışabilir. Daha fazla belleğiniz varsa 8-bit yapı, birkaç ek GB karşılığında kalite artışı sağlayabilir.

Hangi ücretsiz yöntemi seçmelisiniz?

Hızlı karar ağacı:

Sadece denemek mi istiyorsunuz? Hugging Face Space demosunu kullanın.
Uygulama mı geliştiriyorsunuz? Tek komutlu yerel API için Ollama kullanın.
Terminal kullanmak istemiyor musunuz? LM Studio seçin.
Minimum bağımlılık mı istiyorsunuz? llama.cpp kullanın.
Not defteri veya ince ayar mı yapacaksınız? Ücretsiz Colab GPU ile Transformers kullanın.
Telefon veya uç cihaz hedefiniz mi var? Google AI Edge yolunu izleyin.

Çoğu geliştirici günlük yerel kullanım için Ollama’yı tercih ederken, daha kontrollü Python iş akışları için Transformers kullanmaya devam eder.

Ücretsiz yerel Gemma’dan daha iyi sonuç almak için ipuçları

Nicelemeyi RAM’inize göre seçin. Disk takasına düşen model çok yavaş çalışır. Güvenli varsayılan genellikle 4-bit yapıdır.
Zor görevlerde düşünme modunu açın. Matematik ve çok adımlı akıl yürütme için enable_thinking=True kullanın. Hızlı sohbet için kapalı bırakın.
İstemleri 256K bağlam penceresi içinde tutun. Pencere büyük olsa da uzun transkriptler ve kod tabanları hızla birikir.
İstekleri önce Apidog’da doğrulayın. Uygulamanız bağlanmadan önce JSON şeklini ve yanıt formatını kontrol edin.
Diğer ücretsiz modellerle karşılaştırın. Benzer yerel iş akışı Qwen 3.7, MiniMax M3 ve Claude Opus 4.8 erişim yolları için de kullanılabilir.

SSS

Gemma 4 12B gerçekten ücretsiz mi?

Evet. Apache 2.0 açık ağırlıklı olduğu için ticari kullanım dahil ücretsiz olarak indirilebilir ve çalıştırılabilir. Yalnızca çalıştırdığınız donanım veya bulut ortamı için ödeme yaparsınız.

GPU’ya ihtiyacım var mı?

Hayır, ancak GPU performansa yardımcı olur. 4-bit yapı 8 GB GPU’da veya 16 GB birleşik belleğe sahip Mac’te çalışır. Yalnızca CPU ile de çalışabilir, fakat daha yavaş olur.

Gemma 4 12B’yi Google AI Studio’da kullanabilir miyim?

Şu anda hayır. AI Studio, ücretsiz tarayıcı sohbeti için 31B ve 26B modellerini barındırır. 12B, yerel ve cihaz içi kullanım için oluşturulmuştur; bu yüzden yukarıdaki yöntemlerle kendiniz çalıştırırsınız.

Yerel API için API anahtarı gerekir mi?

Hayır. Ollama ve llama.cpp modeli localhost üzerinde anahtarsız sunar. Bir araç API anahtarı alanı zorunlu tutuyorsa herhangi bir yer tutucu değer girebilirsiniz; yerel sunucu bunu yok sayar.

Mevcut OpenAI kodumdan çağırabilir miyim?

Evet. Ollama ve llama.cpp OpenAI uyumlu uç noktalar sunar. Temel URL’yi Ollama için şu şekilde ayarlayın:

http://localhost:11434/v1

llama.cpp için:

http://localhost:8080/v1

Model adını ve temel URL’yi güncellediğinizde kodun büyük kısmını koruyabilirsiniz.

Resim ve ses özelliklerini nasıl çalıştırırım?

Çok modlu girişi destekleyen Transformers, LM Studio veya AI Edge uygulamalarını kullanın. Metin isteminizden önce resim içeriği, sonrasında ise ses içeriği ekleyerek modeli çağırabilirsiniz.

Hangisi daha hızlı: Ollama mı llama.cpp mi?

Aynı temel motoru kullanırlar. llama.cpp daha az ek yüke ve daha fazla ayar bayrağına sahiptir. Ollama ise kurulumu ve günlük kullanımı kolaylaştırır. Çoğu kullanıcı için fark küçüktür.

DEV Community