Google, Gemma 4 12B'yi 3 Haziran 2026'da yayımladı. Bu model; metin, görüntü, ses ve video girdilerini okuyabilen, 11.95 milyar parametreli, açık ağırlıklı bir modeldir. 16 GB belleğe sahip bir dizüstü bilgisayarda çalışacak şekilde hedeflenir. En önemli farkı: doğal ses girdisini ayrı bir görsel veya ses kodlayıcısı olmadan işleyen ilk orta boyutlu model olmasıdır.
Çoğu çok modlu model, bir dil modelinin önüne görsel kodlayıcı ve ses kodlayıcı ekler. Gemma 4 12B ise ham görüntü yamalarını ve ses dalga biçimlerini doğrudan modele verir. Sonuç: metin, görüntü, ses ve video girdilerini işleyen; çevrimdışı çalışabilen; Apache 2.0 lisansı ile ticari kullanım için uygun tek bir 12B model dosyası.
Bu yazıda Gemma 4 12B'nin ne olduğunu, Gemma 4 ailesindeki yerini, hangi donanımda çalıştırılabileceğini ve uygulamalara nasıl entegre edilebileceğini özetliyoruz. Hemen denemek isterseniz, Gemma 4 12B'yi ücretsiz nasıl kullanacağınız rehberine geçebilirsiniz.
Gemma 4 12B'ye hızlı bakış
| Özellik | Değer |
|---|---|
| Yayınlanma tarihi | 3 Haziran 2026 |
| Parametreler | 11.95B, yoğun |
| Girdiler | Metin, görüntü, ses, video |
| Çıktı | Metin |
| Bağlam penceresi | 256K belirteç |
| Mimari | Kodlayıcı içermeyen birleşik çok modlu |
| Lisans | Apache 2.0 |
| Çalıştığı ortam | 16 GB VRAM veya birleşik bellek, 4-bit'te yaklaşık 8 GB |
| Varyantlar |
google/gemma-4-12B, google/gemma-4-12B-it
|
Kısa cevap
Gemma 4 12B, Google DeepMind tarafından yayımlanan, metin/görüntü/ses/video girdilerini alıp metin çıktısı üreten yoğun bir 12B açık modeldir. 256K bağlam penceresi, doğal araç çağrısı ve isteğe bağlı adım adım akıl yürütme modu ile tüketici donanımında yerel çalışmaya uygun hale getirilmiştir.
Model, Gemma 4 serisinin ortasında yer alır. Google, 12B'yi uç cihaz dostu E4B modeli ile daha büyük 26B Mixture-of-Experts modeli arasında konumlandırır. Amaç, 26B'nin bellek ayak izinin yarısından daha azıyla birçok kıyaslamada 26B'ye yakın kalite sunmaktır.
Gemma 4 ailesinde 12B'nin yeri
Gemma 4 ailesi tek seferde yayımlanmadı. E2B, E4B, 26B ve 31B modelleri 31 Mart 2026'da geldi. 12B ise 3 Haziran'da eklendi.
| Model | Boyut | Bağlam | Notlar |
|---|---|---|---|
| Gemma 4 E2B | 2.3B etkili, 5.1B ham | 128K | Cihazda çalışma, ses girişi |
| Gemma 4 E4B | 4.5B etkili, 8B ham | 128K | Kompakt, ses girişi |
| Gemma 4 12B | 11.95B yoğun | 256K | Kodlayıcı içermeyen, ses girişi |
| Gemma 4 26B A4B | 4B aktif / 26B toplam, MoE | 256K | Uzman Karışımı |
| Gemma 4 31B | 31B yoğun | 256K | Sınır performansı |
12B, ailede kodlayıcı içermeyen tasarıma sahip tek modeldir. Diğer modeller geleneksel bir görsel kodlayıcı kullanır; küçük modellerde buna uyumlu bir ses kodlayıcı da eklenir. Bu nedenle 12B, Google'ın cihaz içi çok modlu yapay zekayı hangi yöne taşıdığını görmek için önemli bir örnektir.
Diğer açık modellerle karşılaştırma için MiniMax M3, DeepSeek V4 ve Qwen 3.7 karşılaştırmasına ve daha geniş açık ağırlıklı fiyat savaşı analizine bakabilirsiniz.
"Kodlayıcı içermeyen" mimari ne demek?
Standart çok modlu modeller genellikle şu yapıyı kullanır:
- Görsel kodlayıcı görüntüyü embedding vektörlerine dönüştürür.
- Ses kodlayıcı sesi embedding vektörlerine dönüştürür.
- Bir projektör bu vektörleri dil modelinin alanına eşler.
- Dil modeli bu temsiller üzerinden metin üretir.
Bu yaklaşım çalışır; ancak yüklenmesi, bellekte tutulması ve optimize edilmesi gereken birden fazla bileşen oluşturur.
Gemma 4 12B bu kodlayıcıları kaldırır:
- Görsel tarafında: hafif bir embedding modülü ham görüntü yamalarını doğrudan modelin embedding alanına yansıtır.
- Ses tarafında: ayrı ses kodlayıcısı yoktur. Ham ses, metin belirteçleriyle aynı boyutlu alana yansıtılır.
Yani görsel ve ses girdileri doğrudan dil modeli omurgasına akar. Uygulama açısından bu, tek model ağırlığı ile birden fazla modaliteyi işleyebileceğiniz anlamına gelir.
Verimlilik için iki ek mimari seçim de önemlidir:
- Katman Başına Embedding Vektörleri, PLE: her decoder katmanı, token kimliği araması ile bağlama duyarlı bir projeksiyonu karıştıran küçük ve özel bir embedding alır.
- Paylaşılan KV önbelleği: son katmanlar kendi key-value tensörlerini hesaplamak yerine önceki katmanlardaki tensörleri yeniden kullanır. Bu, uzun bağlamlı kullanımda bellek tüketimini düşürür.
Google ayrıca spekülatif decoding için Çoklu Belirteç Tahmin, yani MTP, taslağı sunar. Bu yaklaşım, çıktı kalitesini değiştirmeden uçtan uca çıkarımı yaklaşık 3 kata kadar hızlandırabilir.
Doğal ses ve çok modlu girişler
Gemma 4 12B'nin pratikte açtığı kullanım alanları şunlardır:
- Otomatik konuşma tanıma ve transkripsiyon
- Konuşmacı diarizasyonu, yani kimin ne zaman konuştuğunu ayırma
- Konuşma dışı sesler üzerinde soru-cevap
- Görüntü ve ses birlikte kullanılarak video anlama
- Görüntü başlıklandırma
- Nesne ve kullanıcı arayüzü tespiti
- Görsel akıl yürütme
Çok modlu istemlerde giriş sırası önemlidir. Sohbet şablonu genellikle metin isteminden önce görüntü içeriğini, ardından sesi bekler. Modelin çıktısı her durumda metindir.
Pratik bir çok modlu işlem hattı şu şekilde tasarlanabilir:
Kullanıcı girdileri:
1. Ekran görüntüsü
2. Toplantı sesi
3. Metin talimatı
Model görevi:
- Görüntüdeki arayüzü tanımla
- Sesteki konuşmayı özetle
- Kullanıcının talimatına göre yapılacak işleri çıkar
Çıktı:
- JSON veya düz metin görev listesi
Örneğin bir uygulama içinde beklenen çıktı formatını açık yazmak iyi sonuç verir:
Aşağıdaki görüntü ve sesi analiz et.
Çıktıyı şu JSON formatında döndür:
{
"summary": "kısa özet",
"speakers": [
{
"name": "bilinmiyorsa speaker_1 kullan",
"points": ["madde 1", "madde 2"]
}
],
"actions": [
{
"task": "yapılacak iş",
"priority": "low | medium | high"
}
]
}
Yayınlanan performans sonuçları
Aşağıdaki puanlar, Hugging Face model kartındaki gemma-4-12B-it sonuçlarıdır.
| Kıyaslama | Gemma 4 12B-it |
|---|---|
| MMLU Pro, akıl yürütme | 77.2% |
| AIME 2026, matematik, araçsız | 77.5% |
| GPQA Diamond, bilim | 78.8% |
| LiveCodeBench v6, kodlama | 72.0% |
| Codeforces, ELO | 1659 |
| MMMU Pro, görsel | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2, 128K, 8-iğne, uzun bağlam | 43.4% |
Aile içindeki konumu ise şöyle:
| Kıyaslama | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
Özetle 12B, E4B'nin belirgin şekilde üstünde; 26B MoE modelinin ise birçok senaryoda ulaşılabilir bir alternatifi. Daha büyük modeller daha yüksek puan verir, ancak daha fazla bellek gerektirir.
Gemma 3'e göre yenilikler
Gemma 3 kullandıysanız, Gemma 4 12B'de dört önemli fark var:
- Doğal ses girişi: Gemma 3 metin ve görsel odaklıydı. 12B, temel modele ses ve sesli video ekler.
- Kodlayıcı içermeyen tasarım: Ayrı görsel veya ses kodlayıcısı yüklemeniz gerekmez.
- 256K bağlam: Uzun belgeler, transkriptler ve çok dosyalı kod tabanları için daha fazla alan sağlar.
- Apache 2.0 lisansı: Önceki Gemma sürümlerindeki özel lisans yerine daha standart ve ticari kullanıma uygun bir lisans kullanılır.
Gemma 4 12B ile ne inşa edebilirsiniz?
Model özellikle cihazda veya yerel ortamda çalışan uygulamalar için uygundur:
- Ekranı gören ve mikrofonu dinleyen çevrimdışı asistanlar
- Toplantı ve arama transkripsiyon araçları
- Konuşmacı ayrıştırma ve özetleme sistemleri
- PDF, ekran görüntüsü ve ses girdilerini birleştiren belge işleme hatları
- Fonksiyon çağrısı kullanan ajan tabanlı iş akışları
- Yerel kod tamamlama, refactor ve kod inceleme yardımcıları
Basit bir mimari şöyle olabilir:
İstemci uygulama
↓
Yerel LLM sunucusu, örn. Ollama veya llama.cpp
↓
Gemma 4 12B-it
↓
JSON yanıt
↓
Uygulama mantığı / araç çağrısı / UI
Yerel modeli API gibi sunuyorsanız, istem ve yanıt formatını test etmeniz gerekir. Apidog gibi bir araçla yerel uç noktayı kaydedebilir, örnek istemler gönderebilir ve JSON yanıtlarını uygulamaya bağlamadan önce doğrulayabilirsiniz. Apidog'u ücretsiz indirebilir ve yerel sunucunuza yönlendirebilirsiniz. Ayrıntılar için ücretsiz kullanım rehberine bakabilirsiniz.
Örnek test senaryosu:
POST http://localhost:11434/api/chat
Content-Type: application/json
{
"model": "gemma-4-12b-it",
"messages": [
{
"role": "user",
"content": "Bu toplantı notlarını 5 maddede özetle ve aksiyonları JSON olarak çıkar."
}
],
"stream": false
}
Beklenen yanıtı uygulamada daha kolay işlemek için modelden yapılandırılmış çıktı isteyin:
{
"summary": [
"Madde 1",
"Madde 2"
],
"actions": [
{
"owner": "Ali",
"task": "API şemasını güncelle",
"due": "2026-06-10"
}
]
}
Lisans: Apache 2.0 size ne sağlar?
Gemma 4 12B, Apache 2.0 altında yayımlanmıştır.
Bu pratikte şu anlama gelir:
- Ticari ürünlerde kullanabilirsiniz.
- Modeli değiştirebilir ve ince ayar yapabilirsiniz.
- Yeniden dağıtabilirsiniz.
- Kapalı kaynaklı uygulamalarda çalıştırabilirsiniz.
- Ürettiğiniz çıktılar size aittir.
Bu, Google'ın önceki Gemma lisansından önemli bir farktır. Apache 2.0, açık kaynak altyapı dünyasında yaygın kullanılan izin verici bir lisanstır ve kurumsal inceleme süreçlerinde genellikle daha anlaşılırdır.
Donanım gereksinimleri
Google'ın hedeflediği ortam, 16 GB VRAM veya Apple tarzı birleşik belleğe sahip makineler. Kuantizasyon ile gereksinim düşer:
| Çalıştırma biçimi | Yaklaşık bellek |
|---|---|
| Tam kalite | 16 GB |
| 8-bit | 14 GB |
| 4-bit, Q4_K_M | 8 GB |
Bu nedenle Gemma 4 12B şu ortamlarda denenebilir:
- 16 GB belleğe sahip MacBook
- Ana akım oyun GPU'su
- Orta seviye iş istasyonu
- Kuantize modelle daha düşük bellekli yerel ortamlar
Donanımınız kısıtlıysa E2B veya E4B modelleri daha düşük gereksinimlerle çalışır.
Uygulamada dikkat edilmesi gerekenler
Gemma 4 12B'yi uygulamaya bağlarken şu adımları izleyin:
-
Model varyantını seçin. Sohbet ve araç kullanımı için çoğu durumda
gemma-4-12B-itdaha uygundur. - Çıktı formatını açık tanımlayın. JSON bekliyorsanız şemayı istemde verin.
- Uzun bağlamı parçalara ayırın. 256K bağlam büyük avantajdır, ancak gereksiz veri maliyet ve gecikme yaratır.
- Yanıtları doğrulayın. Modelin döndürdüğü JSON her zaman geçerli olmayabilir; uygulama tarafında doğrulama ekleyin.
- Kritik bilgileri kontrol edin. Model hatalı veya güncel olmayan bilgi üretebilir.
- Çok modlu sıraya dikkat edin. Görüntü, ses ve metin girdilerini modelin beklediği sohbet şablonuna göre verin.
Bilmeniz gereken sınırlamalar
Google'ın model kartındaki uyarılar pratik kullanım için önemlidir:
- Yanlış veya güncel olmayan bilgi üretebilir.
- Eğitim verilerindeki önyargıları yansıtabilir.
- Alaycılık, nüans ve mecazi dili her zaman doğru yorumlamayabilir.
- Sağduyulu akıl yürütme, bu boyuttaki diğer modeller gibi sınırlıdır.
- Çıktı kalitesi istemin netliğine ve sağlanan bağlama bağlıdır.
Bu sınırlamalar, 12B sınıfı açık modeller için beklenen sınırlamalardır. Gemma 4 12B'nin hedefi, en zor akıl yürütme görevlerinde barındırılan sınır modelleri geçmek değil; verinin bulunduğu yerde çalışan, yerel ve çok modlu bir model sunmaktır.
SSS
Gemma 4 12B ücretsiz mi?
Evet. Ağırlıklar Apache 2.0 altında açıktır ve Hugging Face ile Kaggle üzerinden ücretsiz indirilebilir. Yalnızca çalıştırdığınız donanım veya bulut altyapısı için ödeme yaparsınız. Gemma 4 12B'yi ücretsiz nasıl kullanacağınızı inceleyebilirsiniz.
Gemma 4 12B gerçekten ses anlayabilir mi?
Evet. Ham sesi girdi olarak alır; konuşmayı deşifre edebilir, konuşmacıları tanımlayabilir ve ses hakkında soruları yanıtlayabilir. Bunu ayrı bir konuşma modeli üzerinden değil, doğal olarak yapan ilk orta boyutlu model olarak konumlandırılır.
gemma-4-12B ile gemma-4-12B-it arasındaki fark nedir?
gemma-4-12B temel önceden eğitilmiş modeldir. gemma-4-12B-it ise sohbet, araç kullanımı ve yönerge takibi için talimatlara göre ayarlanmış sürümdür. Uygulama geliştirme ve sohbet arayüzleri için çoğu durumda -it sürümü tercih edilir.
12B, 26B ve 31B'den nasıl farklıdır?
12B yoğun ve kodlayıcı içermeyen bir modeldir; 16 GB sınıfı makinelerde çalışmaya göre ayarlanmıştır. 26B A4B bir Mixture-of-Experts modelidir; 4B aktif, 26B toplam parametreye sahiptir. 31B ise daha büyük yoğun modeldir. Büyük modeller kıyaslamalarda daha yüksek puan alır, ancak daha fazla bellek ister.
Gemma 4 12B araç çağırmayı destekliyor mu?
Evet. Metin ve çok modlu fonksiyon çağrısını destekler. Ayrıca adım adım akıl yürütme için isteğe bağlı düşünme modu sunar. Bu nedenle ajan tabanlı iş akışlarında kullanılabilir.
Gemini 3.5 ile nasıl karşılaştırılır?
Farklı kullanım senaryolarına yöneliktirler. Gemini 3.5, Google'ın barındırılan sınır modelidir; Gemini 3.5 nedir yazısına bakabilirsiniz. Gemma 4 12B ise kendi ortamınızda çalıştırdığınız açık bir modeldir. Gizlilik, çevrimdışı kullanım ve belirteç başına sıfır altyapı maliyeti için en üst kalite seviyesinden bir miktar ödün verirsiniz.

Top comments (0)