Tobias Hoffmann

Posted on Jun 4 • Originally published at apidog.com

Gemma 4 12B Nedir

Google, Gemma 4 12B'yi 3 Haziran 2026'da yayımladı. Bu model; metin, görüntü, ses ve video girdilerini okuyabilen, 11.95 milyar parametreli, açık ağırlıklı bir modeldir. 16 GB belleğe sahip bir dizüstü bilgisayarda çalışacak şekilde hedeflenir. En önemli farkı: doğal ses girdisini ayrı bir görsel veya ses kodlayıcısı olmadan işleyen ilk orta boyutlu model olmasıdır.

Apidog'u bugün deneyin

Çoğu çok modlu model, bir dil modelinin önüne görsel kodlayıcı ve ses kodlayıcı ekler. Gemma 4 12B ise ham görüntü yamalarını ve ses dalga biçimlerini doğrudan modele verir. Sonuç: metin, görüntü, ses ve video girdilerini işleyen; çevrimdışı çalışabilen; Apache 2.0 lisansı ile ticari kullanım için uygun tek bir 12B model dosyası.

Bu yazıda Gemma 4 12B'nin ne olduğunu, Gemma 4 ailesindeki yerini, hangi donanımda çalıştırılabileceğini ve uygulamalara nasıl entegre edilebileceğini özetliyoruz. Hemen denemek isterseniz, Gemma 4 12B'yi ücretsiz nasıl kullanacağınız rehberine geçebilirsiniz.

Gemma 4 12B'ye hızlı bakış

Özellik	Değer
Yayınlanma tarihi	3 Haziran 2026
Parametreler	11.95B, yoğun
Girdiler	Metin, görüntü, ses, video
Çıktı	Metin
Bağlam penceresi	256K belirteç
Mimari	Kodlayıcı içermeyen birleşik çok modlu
Lisans	Apache 2.0
Çalıştığı ortam	16 GB VRAM veya birleşik bellek, 4-bit'te yaklaşık 8 GB
Varyantlar	`google/gemma-4-12B`, `google/gemma-4-12B-it`

Kısa cevap

Gemma 4 12B, Google DeepMind tarafından yayımlanan, metin/görüntü/ses/video girdilerini alıp metin çıktısı üreten yoğun bir 12B açık modeldir. 256K bağlam penceresi, doğal araç çağrısı ve isteğe bağlı adım adım akıl yürütme modu ile tüketici donanımında yerel çalışmaya uygun hale getirilmiştir.

Model, Gemma 4 serisinin ortasında yer alır. Google, 12B'yi uç cihaz dostu E4B modeli ile daha büyük 26B Mixture-of-Experts modeli arasında konumlandırır. Amaç, 26B'nin bellek ayak izinin yarısından daha azıyla birçok kıyaslamada 26B'ye yakın kalite sunmaktır.

Gemma 4 ailesinde 12B'nin yeri

Gemma 4 ailesi tek seferde yayımlanmadı. E2B, E4B, 26B ve 31B modelleri 31 Mart 2026'da geldi. 12B ise 3 Haziran'da eklendi.

Model	Boyut	Bağlam	Notlar
Gemma 4 E2B	2.3B etkili, 5.1B ham	128K	Cihazda çalışma, ses girişi
Gemma 4 E4B	4.5B etkili, 8B ham	128K	Kompakt, ses girişi
Gemma 4 12B	11.95B yoğun	256K	Kodlayıcı içermeyen, ses girişi
Gemma 4 26B A4B	4B aktif / 26B toplam, MoE	256K	Uzman Karışımı
Gemma 4 31B	31B yoğun	256K	Sınır performansı

12B, ailede kodlayıcı içermeyen tasarıma sahip tek modeldir. Diğer modeller geleneksel bir görsel kodlayıcı kullanır; küçük modellerde buna uyumlu bir ses kodlayıcı da eklenir. Bu nedenle 12B, Google'ın cihaz içi çok modlu yapay zekayı hangi yöne taşıdığını görmek için önemli bir örnektir.

Diğer açık modellerle karşılaştırma için MiniMax M3, DeepSeek V4 ve Qwen 3.7 karşılaştırmasına ve daha geniş açık ağırlıklı fiyat savaşı analizine bakabilirsiniz.

"Kodlayıcı içermeyen" mimari ne demek?

Standart çok modlu modeller genellikle şu yapıyı kullanır:

Görsel kodlayıcı görüntüyü embedding vektörlerine dönüştürür.
Ses kodlayıcı sesi embedding vektörlerine dönüştürür.
Bir projektör bu vektörleri dil modelinin alanına eşler.
Dil modeli bu temsiller üzerinden metin üretir.

Bu yaklaşım çalışır; ancak yüklenmesi, bellekte tutulması ve optimize edilmesi gereken birden fazla bileşen oluşturur.

Gemma 4 12B bu kodlayıcıları kaldırır:

Görsel tarafında: hafif bir embedding modülü ham görüntü yamalarını doğrudan modelin embedding alanına yansıtır.
Ses tarafında: ayrı ses kodlayıcısı yoktur. Ham ses, metin belirteçleriyle aynı boyutlu alana yansıtılır.

Yani görsel ve ses girdileri doğrudan dil modeli omurgasına akar. Uygulama açısından bu, tek model ağırlığı ile birden fazla modaliteyi işleyebileceğiniz anlamına gelir.

Verimlilik için iki ek mimari seçim de önemlidir:

Katman Başına Embedding Vektörleri, PLE: her decoder katmanı, token kimliği araması ile bağlama duyarlı bir projeksiyonu karıştıran küçük ve özel bir embedding alır.
Paylaşılan KV önbelleği: son katmanlar kendi key-value tensörlerini hesaplamak yerine önceki katmanlardaki tensörleri yeniden kullanır. Bu, uzun bağlamlı kullanımda bellek tüketimini düşürür.

Google ayrıca spekülatif decoding için Çoklu Belirteç Tahmin, yani MTP, taslağı sunar. Bu yaklaşım, çıktı kalitesini değiştirmeden uçtan uca çıkarımı yaklaşık 3 kata kadar hızlandırabilir.

Doğal ses ve çok modlu girişler

Gemma 4 12B'nin pratikte açtığı kullanım alanları şunlardır:

Otomatik konuşma tanıma ve transkripsiyon
Konuşmacı diarizasyonu, yani kimin ne zaman konuştuğunu ayırma
Konuşma dışı sesler üzerinde soru-cevap
Görüntü ve ses birlikte kullanılarak video anlama
Görüntü başlıklandırma
Nesne ve kullanıcı arayüzü tespiti
Görsel akıl yürütme

Çok modlu istemlerde giriş sırası önemlidir. Sohbet şablonu genellikle metin isteminden önce görüntü içeriğini, ardından sesi bekler. Modelin çıktısı her durumda metindir.

Pratik bir çok modlu işlem hattı şu şekilde tasarlanabilir:

Kullanıcı girdileri:
1. Ekran görüntüsü
2. Toplantı sesi
3. Metin talimatı

Model görevi:
- Görüntüdeki arayüzü tanımla
- Sesteki konuşmayı özetle
- Kullanıcının talimatına göre yapılacak işleri çıkar

Çıktı:
- JSON veya düz metin görev listesi

Örneğin bir uygulama içinde beklenen çıktı formatını açık yazmak iyi sonuç verir:

Aşağıdaki görüntü ve sesi analiz et.

Çıktıyı şu JSON formatında döndür:

{
  "summary": "kısa özet",
  "speakers": [
    {
      "name": "bilinmiyorsa speaker_1 kullan",
      "points": ["madde 1", "madde 2"]
    }
  ],
  "actions": [
    {
      "task": "yapılacak iş",
      "priority": "low | medium | high"
    }
  ]
}

Yayınlanan performans sonuçları

Aşağıdaki puanlar, Hugging Face model kartındaki gemma-4-12B-it sonuçlarıdır.

Kıyaslama	Gemma 4 12B-it
MMLU Pro, akıl yürütme	77.2%
AIME 2026, matematik, araçsız	77.5%
GPQA Diamond, bilim	78.8%
LiveCodeBench v6, kodlama	72.0%
Codeforces, ELO	1659
MMMU Pro, görsel	69.1%
MATH-Vision	79.7%
MRCR v2, 128K, 8-iğne, uzun bağlam	43.4%

Aile içindeki konumu ise şöyle:

Kıyaslama	E4B	12B	26B A4B	31B
MMLU Pro	69.4%	77.2%	82.6%	85.2%
AIME 2026	42.5%	77.5%	88.3%	89.2%
GPQA Diamond	58.6%	78.8%	82.3%	84.3%
LiveCodeBench v6	52.0%	72.0%	77.1%	80.0%

Özetle 12B, E4B'nin belirgin şekilde üstünde; 26B MoE modelinin ise birçok senaryoda ulaşılabilir bir alternatifi. Daha büyük modeller daha yüksek puan verir, ancak daha fazla bellek gerektirir.

Gemma 3'e göre yenilikler

Gemma 3 kullandıysanız, Gemma 4 12B'de dört önemli fark var:

Doğal ses girişi: Gemma 3 metin ve görsel odaklıydı. 12B, temel modele ses ve sesli video ekler.
Kodlayıcı içermeyen tasarım: Ayrı görsel veya ses kodlayıcısı yüklemeniz gerekmez.
256K bağlam: Uzun belgeler, transkriptler ve çok dosyalı kod tabanları için daha fazla alan sağlar.
Apache 2.0 lisansı: Önceki Gemma sürümlerindeki özel lisans yerine daha standart ve ticari kullanıma uygun bir lisans kullanılır.

Gemma 4 12B ile ne inşa edebilirsiniz?

Model özellikle cihazda veya yerel ortamda çalışan uygulamalar için uygundur:

Ekranı gören ve mikrofonu dinleyen çevrimdışı asistanlar
Toplantı ve arama transkripsiyon araçları
Konuşmacı ayrıştırma ve özetleme sistemleri
PDF, ekran görüntüsü ve ses girdilerini birleştiren belge işleme hatları
Fonksiyon çağrısı kullanan ajan tabanlı iş akışları
Yerel kod tamamlama, refactor ve kod inceleme yardımcıları

Basit bir mimari şöyle olabilir:

İstemci uygulama
   ↓
Yerel LLM sunucusu, örn. Ollama veya llama.cpp
   ↓
Gemma 4 12B-it
   ↓
JSON yanıt
   ↓
Uygulama mantığı / araç çağrısı / UI

Yerel modeli API gibi sunuyorsanız, istem ve yanıt formatını test etmeniz gerekir. Apidog gibi bir araçla yerel uç noktayı kaydedebilir, örnek istemler gönderebilir ve JSON yanıtlarını uygulamaya bağlamadan önce doğrulayabilirsiniz. Apidog'u ücretsiz indirebilir ve yerel sunucunuza yönlendirebilirsiniz. Ayrıntılar için ücretsiz kullanım rehberine bakabilirsiniz.

Örnek test senaryosu:

POST http://localhost:11434/api/chat
Content-Type: application/json

{
  "model": "gemma-4-12b-it",
  "messages": [
    {
      "role": "user",
      "content": "Bu toplantı notlarını 5 maddede özetle ve aksiyonları JSON olarak çıkar."
    }
  ],
  "stream": false
}

Beklenen yanıtı uygulamada daha kolay işlemek için modelden yapılandırılmış çıktı isteyin:

{
  "summary": [
    "Madde 1",
    "Madde 2"
  ],
  "actions": [
    {
      "owner": "Ali",
      "task": "API şemasını güncelle",
      "due": "2026-06-10"
    }
  ]
}

Lisans: Apache 2.0 size ne sağlar?

Gemma 4 12B, Apache 2.0 altında yayımlanmıştır.

Bu pratikte şu anlama gelir:

Ticari ürünlerde kullanabilirsiniz.
Modeli değiştirebilir ve ince ayar yapabilirsiniz.
Yeniden dağıtabilirsiniz.
Kapalı kaynaklı uygulamalarda çalıştırabilirsiniz.
Ürettiğiniz çıktılar size aittir.

Bu, Google'ın önceki Gemma lisansından önemli bir farktır. Apache 2.0, açık kaynak altyapı dünyasında yaygın kullanılan izin verici bir lisanstır ve kurumsal inceleme süreçlerinde genellikle daha anlaşılırdır.

Donanım gereksinimleri

Google'ın hedeflediği ortam, 16 GB VRAM veya Apple tarzı birleşik belleğe sahip makineler. Kuantizasyon ile gereksinim düşer:

Çalıştırma biçimi	Yaklaşık bellek
Tam kalite	16 GB
8-bit	14 GB
4-bit, Q4_K_M	8 GB

Bu nedenle Gemma 4 12B şu ortamlarda denenebilir:

16 GB belleğe sahip MacBook
Ana akım oyun GPU'su
Orta seviye iş istasyonu
Kuantize modelle daha düşük bellekli yerel ortamlar

Donanımınız kısıtlıysa E2B veya E4B modelleri daha düşük gereksinimlerle çalışır.

Uygulamada dikkat edilmesi gerekenler

Gemma 4 12B'yi uygulamaya bağlarken şu adımları izleyin:

Model varyantını seçin. Sohbet ve araç kullanımı için çoğu durumda gemma-4-12B-it daha uygundur.
Çıktı formatını açık tanımlayın. JSON bekliyorsanız şemayı istemde verin.
Uzun bağlamı parçalara ayırın. 256K bağlam büyük avantajdır, ancak gereksiz veri maliyet ve gecikme yaratır.
Yanıtları doğrulayın. Modelin döndürdüğü JSON her zaman geçerli olmayabilir; uygulama tarafında doğrulama ekleyin.
Kritik bilgileri kontrol edin. Model hatalı veya güncel olmayan bilgi üretebilir.
Çok modlu sıraya dikkat edin. Görüntü, ses ve metin girdilerini modelin beklediği sohbet şablonuna göre verin.

Bilmeniz gereken sınırlamalar

Google'ın model kartındaki uyarılar pratik kullanım için önemlidir:

Yanlış veya güncel olmayan bilgi üretebilir.
Eğitim verilerindeki önyargıları yansıtabilir.
Alaycılık, nüans ve mecazi dili her zaman doğru yorumlamayabilir.
Sağduyulu akıl yürütme, bu boyuttaki diğer modeller gibi sınırlıdır.
Çıktı kalitesi istemin netliğine ve sağlanan bağlama bağlıdır.

Bu sınırlamalar, 12B sınıfı açık modeller için beklenen sınırlamalardır. Gemma 4 12B'nin hedefi, en zor akıl yürütme görevlerinde barındırılan sınır modelleri geçmek değil; verinin bulunduğu yerde çalışan, yerel ve çok modlu bir model sunmaktır.

SSS

Gemma 4 12B ücretsiz mi?

Evet. Ağırlıklar Apache 2.0 altında açıktır ve Hugging Face ile Kaggle üzerinden ücretsiz indirilebilir. Yalnızca çalıştırdığınız donanım veya bulut altyapısı için ödeme yaparsınız. Gemma 4 12B'yi ücretsiz nasıl kullanacağınızı inceleyebilirsiniz.

Gemma 4 12B gerçekten ses anlayabilir mi?

Evet. Ham sesi girdi olarak alır; konuşmayı deşifre edebilir, konuşmacıları tanımlayabilir ve ses hakkında soruları yanıtlayabilir. Bunu ayrı bir konuşma modeli üzerinden değil, doğal olarak yapan ilk orta boyutlu model olarak konumlandırılır.

gemma-4-12B ile gemma-4-12B-it arasındaki fark nedir?

gemma-4-12B temel önceden eğitilmiş modeldir. gemma-4-12B-it ise sohbet, araç kullanımı ve yönerge takibi için talimatlara göre ayarlanmış sürümdür. Uygulama geliştirme ve sohbet arayüzleri için çoğu durumda -it sürümü tercih edilir.

12B, 26B ve 31B'den nasıl farklıdır?

12B yoğun ve kodlayıcı içermeyen bir modeldir; 16 GB sınıfı makinelerde çalışmaya göre ayarlanmıştır. 26B A4B bir Mixture-of-Experts modelidir; 4B aktif, 26B toplam parametreye sahiptir. 31B ise daha büyük yoğun modeldir. Büyük modeller kıyaslamalarda daha yüksek puan alır, ancak daha fazla bellek ister.

Gemma 4 12B araç çağırmayı destekliyor mu?

Evet. Metin ve çok modlu fonksiyon çağrısını destekler. Ayrıca adım adım akıl yürütme için isteğe bağlı düşünme modu sunar. Bu nedenle ajan tabanlı iş akışlarında kullanılabilir.

Gemini 3.5 ile nasıl karşılaştırılır?

Farklı kullanım senaryolarına yöneliktirler. Gemini 3.5, Google'ın barındırılan sınır modelidir; Gemini 3.5 nedir yazısına bakabilirsiniz. Gemma 4 12B ise kendi ortamınızda çalıştırdığınız açık bir modeldir. Gizlilik, çevrimdışı kullanım ve belirteç başına sıfır altyapı maliyeti için en üst kalite seviyesinden bir miktar ödün verirsiniz.

DEV Community