Gemma 4 12B açık ağırlıklı ve Apache 2.0 lisanslıdır; bu yüzden buradaki “ücretsiz” gerçekten ücretsiz demektir. API faturası veya abonelik yoktur. Modeli indirip kendi makinenizde çalıştırabilir ya da bir tarayıcı sekmesinde hızlıca deneyebilirsiniz. Tek maliyet, kullandığınız donanımdır.
Önceden bilmeniz gereken nokta: 12B, yerel ve cihaz içi kullanım için tasarlanmıştır. Daha büyük 31B ve 26B modelleri, Google’ın AI Studio’da ücretsiz sohbet için barındırdığı modellerdir. 12B’nin ana avantajı, 16 GB belleğe sahip bir dizüstü bilgisayarda çalışabilmesidir. Aşağıdaki yöntemler, Gemma 4 12B’yi donanımınızda hızlıca denemeye ve yerel API olarak kullanmaya odaklanır. Modele yeni başlıyorsanız özellikler için Gemma 4 12B nedir yazısıyla başlayın.
Bu rehberde, 60 saniyelik tarayıcı demosundan uygulamanıza bağlayabileceğiniz yerel API’ye kadar altı pratik yöntem kullanacağız.
Hızlı özet
| Yöntem | Ne elde edersiniz | En iyisi |
|---|---|---|
| Hugging Face Space | Tarayıcı sohbeti, sıfır kurulum | Bir dakikada denemek için |
| Ollama | Yerel model + OpenAI uyumlu API | Geliştiriciler, tek komutla |
| LM Studio | GUI’li yerel masaüstü uygulaması | Terminal kullanmak istemeyenler |
| llama.cpp | Hafif yerel API sunucusu | Gelişmiş ve düşük maliyetli kurulumlar |
| HF Transformers | Python, tam kontrol, ücretsiz Colab GPU | Not defterleri ve ince ayar |
| Google AI Edge | Cihaz üzerinde, mobil | Telefonlar ve uç cihaz donanımı |
Yöntem 1: Tarayıcınızda deneyin
Gemma 4 12B’yi kurulum yapmadan görmek istiyorsanız en hızlı yol, Hugging Face’deki resmi demo alanını kullanmaktır. İndirme, hesap veya yerel GPU gerekmez.
Adımlar:
- Gemma 4 12B demo Alanını açın.
- Bir metin istemi yazın.
- İsterseniz bir resim veya ses klibi yükleyin.
- Yanıtı kontrol edin.
Bu yöntem, modeli hızlıca değerlendirmek için uygundur. Alan, resim ve ses girişi kabul ettiği için çok modlu yetenekleri de test edebilirsiniz. Bir uygulama geliştirmeye başlayacaksanız aşağıdaki yerel yöntemlerden birine geçin.
Yöntem 2: Ollama ile yerel API çalıştırın
Ollama, Gemma 4 12B’yi yerel olarak çalıştırmanın ve OpenAI uyumlu bir API elde etmenin en basit yollarından biridir.
Ollama’yı kurun
macOS veya Linux’ta:
curl -fsSL https://ollama.com/install.sh | sh
Windows’ta ollama.com adresinden yükleyiciyi indirip çalıştırın.
Modeli indirin ve başlatın
ollama pull gemma4:12b
ollama run gemma4:12b
İlk komut modeli indirir. Varsayılan yapı 4-bit Q4_K_M’dir ve yaklaşık 8 GB yer kaplar. İkinci komut etkileşimli sohbet oturumu başlatır.
Çıkmak için:
/bye
OpenAI uyumlu yerel API’yi çağırın
Ollama, varsayılan olarak şu adreste REST API sunar:
http://localhost:11434
Örnek istek:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Explain how transformers work in two sentences."
}
]
}'
OpenAI formatıyla uyumlu olduğu için OpenAI SDK’sı veya OpenAI uyumlu araçlar kullanıyorsanız temel URL’yi şu şekilde değiştirmeniz yeterlidir:
http://localhost:11434/v1
Bu yaklaşım editörler, agent framework’leri ve API istemcileriyle kullanılabilir. IDE kurulumu için yöntem, Cursor’da DeepSeek V4 kılavuzumuza benzerdir; yalnızca model adını gemma4:12b yapın.
Faydalı Ollama komutları:
ollama list
ollama ps
ollama show gemma4:12b
Ne işe yararlar:
-
ollama list: indirilen modelleri gösterir -
ollama ps: çalışan modelleri gösterir -
ollama show gemma4:12b: model ayrıntılarını yazdırır
Yöntem 3: LM Studio ile terminalsiz çalıştırın
Komut satırı kullanmak istemiyorsanız LM Studio, Windows, macOS ve Linux için masaüstü uygulaması sağlar.
Adımlar:
- LM Studio’yu indirin ve kurun.
- Model kataloğunda Gemma 4 12B arayın.
- RAM’inize uygun bir niceleme seçin.
- Modeli indirin.
- Sohbet sekmesini açın ve istemlerinizi test edin.
LM Studio ayrıca genellikle 1234 portunda OpenAI uyumlu yerel bir sunucu çalıştırır. Böylece kod yazmadan yerel API deneyebilirsiniz.
Bu yöntem özellikle terminal kullanmak istemeyen tasarımcılar, yazarlar ve görsel arayüzle çalışmayı tercih eden ekipler için uygundur.
Yöntem 4: llama.cpp ile hafif API sunucusu kurun
llama.cpp, GGUF modellerini düşük ek yükle çalıştırır ve OpenAI uyumlu bir sunucu sağlar.
Kurulum:
# macOS
brew install llama.cpp
# Windows
winget install llama.cpp
Ardından resmi GGUF yapısını hedefleyen bir sunucu başlatın. Tam 12B depo adını bulmak için Hugging Face’deki ggml-org/gemma-4 koleksiyonunu kontrol edin ve ilgili adı llama-server komutuna geçirin:
llama-server -hf ggml-org/gemma-4-12B-it-GGUF
Sunucu şu adreste OpenAI uyumlu API sağlar:
http://localhost:8080/v1
Bu yöntem, minimum bağımlılık istediğinizde veya mütevazı donanımda çalıştığınızda iyi bir seçenektir. Ayrıca birçok yerel LLM aracının altında benzer çalışma mantığı bulunduğu için llama.cpp öğrenmek pratik avantaj sağlar.
Yöntem 5: Hugging Face Transformers ile Python’dan çalıştırın
Not defteri, betik veya ince ayar senaryoları için modeli Python’da Transformers ile çalıştırabilirsiniz. Yerel GPU’nuz yoksa ücretsiz Google Colab not defteri kullanabilirsiniz.
Kütüphaneleri kurun:
pip install transformers torch accelerate torchvision
# Ses ve video girişi için
pip install librosa
Talimatlara göre ayarlanmış modeli yükleyin:
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Write a short joke about saving RAM."},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(
outputs[0][input_len:],
skip_special_tokens=False
)
print(processor.parse_response(response))
Daha zor görevlerde adım adım akıl yürütme modunu açmak için:
enable_thinking=True
Resim veya ses dosyası beslemek için içerik listesine metinden önce {"type": "image", ...} ve sonra {"type": "audio", ...} içeren öğeler ekleyin. Ağırlıklar Kaggle’da da mevcuttur. Daha ayrıntılı kod desenleri geliştirici kılavuzunda bulunur.
Yöntem 6: Google AI Edge ile cihaz üzerinde çalıştırın
Gemma 4 12B’yi telefonda veya uç cihazda çalıştırmak için Google, AI Edge yığınını sunar. Google AI Edge Gallery uygulaması ve LiteRT-LM CLI, 12B’yi cihaz üzerinde çalıştırabilir.
LiteRT-LM ile yerel sunucu başlatmak için:
litert-lm import \
--from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve
Bu yol, verilerin cihazdan ayrılmadığı çevrimdışı mobil asistanlar ve gömülü uygulamalar için uygundur.
Yerel Gemma 4 12B API’nizi Apidog ile test edin
Gemma 4 12B’yi Ollama veya llama.cpp ile çalıştırdığınızda makinenizde gerçek bir HTTP API elde edersiniz. Bunu uygulamanıza bağlamadan önce istek ve yanıt biçimini bir API istemcisinde doğrulamak iyi bir pratiktir. Apidog bu iş akışı için kullanılabilir.
Temiz bir test kurulumu:
- Apidog’u indirin ve yeni bir HTTP projesi oluşturun.
- Şu adrese bir
POSTisteği ekleyin:
http://localhost:11434/v1/chat/completions
- Gövde tipini JSON olarak ayarlayın.
- Aşağıdaki örnek yükü yapıştırın:
{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Return a JSON object with two fields: city and country."
}
],
"stream": false
}
- Temel URL’yi ortam değişkeni olarak kaydedin. Böylece Ollama (
:11434) ve llama.cpp (:8080) arasında tek tıklamayla geçebilirsiniz. - Modelin
contentalanında geçerli JSON döndürdüğünü doğrulamak için yanıt onayı ekleyin. - Akışı test etmek için
"stream": trueyapın ve dönen token’ları izleyin.
Bu sayede bozuk istemleri, hatalı alan adlarını veya beklenmeyen yanıt biçimlerini uygulama kodunun içinde değil, API testi aşamasında yakalarsınız.
API istemcilerini karşılaştırıyorsanız ücretsiz çevrimiçi API test araçları ve en iyi Postman alternatifleri özetlerine bakabilirsiniz. Aynı test akışı OpenAI uyumlu herhangi bir uç nokta için çalışır; bu yüzden alışkanlıklar Postman tarzı iş akışlarıyla API test etmeye doğrudan aktarılır.
Hangi nicelemeyi seçmelisiniz?
Gemma 4 12B, kullanılan sıkıştırma seviyesine göre farklı bellek gereksinimlerine sahiptir.
| Yapı | Gerekli bellek | Takas |
|---|---|---|
| Tam hassasiyet | ~16 GB | En iyi kalite |
| 8-bit | ~14 GB | Neredeyse tam kalite |
| 4-bit (Q4_K_M) | ~8 GB | Hafif kalite düşüşü, geniş uyumluluk |
Ollama varsayılan olarak 4-bit yapıyı kullanır. Bu yüzden 8 GB GPU’da veya 16 GB birleşik belleğe sahip MacBook’ta çalışabilir. Daha fazla belleğiniz varsa 8-bit yapı, birkaç ek GB karşılığında kalite artışı sağlayabilir.
Hangi ücretsiz yöntemi seçmelisiniz?
Hızlı karar ağacı:
- Sadece denemek mi istiyorsunuz? Hugging Face Space demosunu kullanın.
- Uygulama mı geliştiriyorsunuz? Tek komutlu yerel API için Ollama kullanın.
- Terminal kullanmak istemiyor musunuz? LM Studio seçin.
- Minimum bağımlılık mı istiyorsunuz? llama.cpp kullanın.
- Not defteri veya ince ayar mı yapacaksınız? Ücretsiz Colab GPU ile Transformers kullanın.
- Telefon veya uç cihaz hedefiniz mi var? Google AI Edge yolunu izleyin.
Çoğu geliştirici günlük yerel kullanım için Ollama’yı tercih ederken, daha kontrollü Python iş akışları için Transformers kullanmaya devam eder.
Ücretsiz yerel Gemma’dan daha iyi sonuç almak için ipuçları
- Nicelemeyi RAM’inize göre seçin. Disk takasına düşen model çok yavaş çalışır. Güvenli varsayılan genellikle 4-bit yapıdır.
-
Zor görevlerde düşünme modunu açın. Matematik ve çok adımlı akıl yürütme için
enable_thinking=Truekullanın. Hızlı sohbet için kapalı bırakın. - İstemleri 256K bağlam penceresi içinde tutun. Pencere büyük olsa da uzun transkriptler ve kod tabanları hızla birikir.
- İstekleri önce Apidog’da doğrulayın. Uygulamanız bağlanmadan önce JSON şeklini ve yanıt formatını kontrol edin.
- Diğer ücretsiz modellerle karşılaştırın. Benzer yerel iş akışı Qwen 3.7, MiniMax M3 ve Claude Opus 4.8 erişim yolları için de kullanılabilir.
SSS
Gemma 4 12B gerçekten ücretsiz mi?
Evet. Apache 2.0 açık ağırlıklı olduğu için ticari kullanım dahil ücretsiz olarak indirilebilir ve çalıştırılabilir. Yalnızca çalıştırdığınız donanım veya bulut ortamı için ödeme yaparsınız.
GPU’ya ihtiyacım var mı?
Hayır, ancak GPU performansa yardımcı olur. 4-bit yapı 8 GB GPU’da veya 16 GB birleşik belleğe sahip Mac’te çalışır. Yalnızca CPU ile de çalışabilir, fakat daha yavaş olur.
Gemma 4 12B’yi Google AI Studio’da kullanabilir miyim?
Şu anda hayır. AI Studio, ücretsiz tarayıcı sohbeti için 31B ve 26B modellerini barındırır. 12B, yerel ve cihaz içi kullanım için oluşturulmuştur; bu yüzden yukarıdaki yöntemlerle kendiniz çalıştırırsınız.
Yerel API için API anahtarı gerekir mi?
Hayır. Ollama ve llama.cpp modeli localhost üzerinde anahtarsız sunar. Bir araç API anahtarı alanı zorunlu tutuyorsa herhangi bir yer tutucu değer girebilirsiniz; yerel sunucu bunu yok sayar.
Mevcut OpenAI kodumdan çağırabilir miyim?
Evet. Ollama ve llama.cpp OpenAI uyumlu uç noktalar sunar. Temel URL’yi Ollama için şu şekilde ayarlayın:
http://localhost:11434/v1
llama.cpp için:
http://localhost:8080/v1
Model adını ve temel URL’yi güncellediğinizde kodun büyük kısmını koruyabilirsiniz.
Resim ve ses özelliklerini nasıl çalıştırırım?
Çok modlu girişi destekleyen Transformers, LM Studio veya AI Edge uygulamalarını kullanın. Metin isteminizden önce resim içeriği, sonrasında ise ses içeriği ekleyerek modeli çağırabilirsiniz.
Hangisi daha hızlı: Ollama mı llama.cpp mi?
Aynı temel motoru kullanırlar. llama.cpp daha az ek yüke ve daha fazla ayar bayrağına sahiptir. Ollama ise kurulumu ve günlük kullanımı kolaylaştırır. Çoğu kullanıcı için fark küçüktür.




Top comments (0)