Google, Gemini 3.5 Flash'ı 19 Mayıs 2026'da piyasaya sürdü ve ana fiyatlandırma iddiası iddialı: aracı görevler için “diğer öncü modellerin yarı fiyatından daha az”. Bu rehber, bu iddiayı jeton maliyeti, ücretsiz katman, toplu mod ve gerçek iş yükleri üzerinden hesaplamaya çevirir.
Bu yazıda şunları uygulamalı olarak göreceksiniz:
- Giriş ve çıkış jeton maliyetleri nasıl hesaplanır
- Ücretsiz katman hangi kullanım seviyesine kadar yeterlidir
- Toplu mod ile maliyet nasıl yaklaşık %50 düşürülür
- Gerçek senaryolarda aylık fatura nasıl tahmin edilir
- GPT-5.5 ve Claude Opus 4.7 ile maliyet farkı nasıl okunur
- Üretimde maliyeti kontrol etmek için hangi optimizasyonlar uygulanır
Hızlı özet
| Maliyet türü | Oran |
|---|---|
| Standart giriş | ~1,50 $ / 1M jeton |
| Standart çıkış | ~9,00 $ / 1M jeton |
| Toplu mod girişi | ~0,75 $ / 1M jeton (~%50 indirim) |
| Toplu mod çıkışı | ~4,50 $ / 1M jeton (~%50 indirim) |
| Önbelleğe alınmış giriş | indirimli oran (değişir) |
| Ücretsiz katman (AI Studio) | ~1.500 istek/gün, 1M jeton/dk, 15 RPM |
| Vertex AI yeni hesap | 90 gün içinde 300 $ kredi |
Oranlar Google'ın lansman duyurusu ve toplayıcı listelerine göre Mayıs 2026 itibarıyla geçerlidir. Bütçe ayırmadan önce daima resmi fiyatlandırma sayfasını kontrol edin.
Gemini 3.5 Flash jeton başına oranları
Gemini 3.5 Flash, kullandığın kadar öde modelini kullanır. Giriş ve çıkış jetonları ayrı fiyatlandırılır.
| Katman | Giriş ($/1M) | Çıkış ($/1M) |
|---|---|---|
| Standart | ~1,50 $ | ~9,00 $ |
| Önbelleğe alınmış giriş | indirimli | yok |
| Toplu (eşzamansız) | ~0,75 $ | ~4,50 $ |
Temel maliyet formülü:
giriş_maliyeti = giriş_jetonu * giriş_oranı / 1_000_000
çıkış_maliyeti = çıkış_jetonu * çıkış_oranı / 1_000_000
toplam_maliyet = giriş_maliyeti + çıkış_maliyeti
Pratik notlar:
- Jetonlar kelime değildir. Kaba kural: 1.000 jeton ≈ 750 İngilizce kelime. 100.000 kelimelik bir roman yaklaşık 133 bin giriş jetonudur.
- Çıkış, girişe göre yaklaşık 6 kat daha pahalıdır. Uzun yanıt isteyen istemler, kısa ve yapılandırılmış yanıt isteyen istemlerden çok daha pahalıdır.
- JSON çıktısı genellikle daha ucuzdur. Modelin daha az metin üretmesini sağladığı için serbest biçimli metne göre maliyeti düşürebilir.
Gemini'nin toplu modunun nasıl çalıştığını görmek için Gemini API toplu modu burada ve %50 daha ucuz makalesine bakın.
Ücretsiz katman: ödeme yapmadan ne elde edersiniz?
AI Studio ücretsiz katmanı, Gemini 3.5 Flash ile kullanılabilir. Lansmandaki sınırlar:
- Günde 1.500 istek
- Dakikada 1 milyon jeton
- Dakikada 15 istek
Bu sınırlar çoğu yan proje, dahili prototip ve küçük otomasyon için yeterlidir. İş yükünüz günde 1.500 çağrının altındaysa, API maliyetiniz 0 $ olabilir.
Ücretsiz katmanda dikkat edilecekler:
- Kredi kartı gerekmez.
- Ücretli uç nokta ile aynı
gemini-3.5-flashmodeli kullanılır. - SDK deseni aynıdır; farklı anahtar kullanırsınız.
- İstemler Google'ın modellerini geliştirmek için kullanılabilir. Bunu AI Studio ayarlarından devre dışı bırakın.
- Kotalar değişebilir; mimariyi tam 1.500 istek/gün sınırına göre tasarlamayın.
Kurulum için şu rehberlere bakabilirsiniz:
- Gemini 3.5'i ücretsiz olarak nasıl kullanabilirsiniz
- Ücretsiz Google Gemini API anahtarı nasıl alınır
Toplu mod: çoğu ekibin kaçırdığı %50 indirim
İş yükünüz gerçek zamanlı yanıt gerektirmiyorsa, toplu mod Flash maliyetlerini yaklaşık yarıya indirir.
Çalışma şekli:
- Tek seferde 50.000 adede kadar istem içeren bir toplu iş gönderin.
- Google bu istekleri 24 saat içinde işler.
- Hem giriş hem çıkış jetonlarında yaklaşık %50 daha az ödersiniz.
Toplu modun uygun olduğu işler:
- Belge analizi
- Yasal inceleme
- Destek bileti sınıflandırması
- İçerik denetimi
- SaaS panelleri için gece içerik üretimi
- Geçmiş verileri yeniden işleme
- Gecikmeye toleranslı ön hesaplama işleri
Uygun olmadığı işler:
- Sohbet arayüzleri
- Canlı kullanıcı etkileşimleri
- Gerçek zamanlı ajan döngüleri
- Kullanıcının hemen yanıt beklediği akışlar
Üretim yığınınızda şu ayrımı yapın:
gerçek zamanlı mı?
├─ evet -> standart Gemini 3.5 Flash çağrısı
└─ hayır -> toplu mod
Kurulum detayları için toplu mod rehberimize bakın.
Önbelleğe alınmış giriş: başka bir maliyet kaldıraç noktası
İstemleriniz uzun ve statik bir önek paylaşıyorsa, bağlam önbellekleme maliyeti düşürebilir.
Tipik adaylar:
- Sistem istemleri
- Uzun talimat blokları
- Referans belgeler
- Sık kullanılan RAG parçaları
- Ürün dokümantasyonu
- Politika veya sözleşme metinleri
Örnek desen:
- 100K jetonluk referans belgeyi bir kez önbelleğe alın.
- Binlerce sorguda aynı bağlamı yeniden kullanın.
- Tam oranı yalnızca yeni soru için ödeyin.
- Önbelleğe alınmış önek için indirimli oran ödeyin.
Somut tasarruf, önbellek isabet oranına bağlıdır. Aynı referans parçalarının tekrar tekrar kullanıldığı RAG tarzı uygulamalarda %30-60 giriş maliyeti azalması beklenebilir.
Gerçek dünya maliyet senaryoları
Aşağıdaki hesaplamalar standart Gemini 3.5 Flash oranlarıyla yapılmıştır:
giriş: 1,50 $ / 1M jeton
çıkış: 9,00 $ / 1M jeton
Senaryo 1: Müşteri destek sohbet botu
Varsayımlar:
- Günde 10.000 kullanıcı mesajı
- Ortalama 200 giriş jetonu
- Ortalama 400 çıkış jetonu
Günlük maliyet:
giriş = 10.000 × 200 × 1,50 / 1.000.000
= 3,00 $/gün
çıkış = 10.000 × 400 × 9,00 / 1.000.000
= 36,00 $/gün
toplam = 39,00 $/gün
Aylık yaklaşık maliyet:
39 × 30 = 1.170 $/ay
Toplu yanıtlara tolerans varsa, toplu mod ile yaklaşık:
1.170 / 2 = 585 $/ay
Sistem istemi için bağlam önbellekleme eklenirse ek %20-30 indirim sağlanabilir.
Senaryo 2: Belge Soru-Cevap SaaS
Varsayımlar:
- Günde 1.000 belge analiz ediliyor
- Her belge ortalama 30K jeton
- Her Soru-Cevap 500 çıkış jetonu döndürüyor
Günlük maliyet:
giriş = 1.000 × 30.000 × 1,50 / 1.000.000
= 45,00 $/gün
çıkış = 1.000 × 500 × 9,00 / 1.000.000
= 4,50 $/gün
toplam ≈ 50 $/gün
Aylık yaklaşık maliyet:
50 × 30 = 1.500 $/ay
Flash'ın 1M bağlam penceresi bu senaryoda kullanışlıdır: parçalama altyapısı kurmadan tüm belgeyi gönderebilirsiniz. Amiral gemisi modelle parçalı RAG çalıştırmaya kıyasla API ve altyapı maliyeti daha yüksek olabilir.
Senaryo 3: Uzun süreli otonom ajan
Varsayımlar:
- Bir ajan çalıştırması = ~50 model dönüşü
- Her dönüş ortalama 5K giriş ve 1K çıkış
- Günde 200 çalıştırma
Çalıştırma başına maliyet:
giriş = 50 × 5.000 × 1,50 / 1.000.000
= 0,375 $
çıkış = 50 × 1.000 × 9,00 / 1.000.000
= 0,45 $
toplam ≈ 0,83 $ / çalıştırma
Günlük ve aylık maliyet:
günlük = 200 × 0,83 = 166 $/gün
aylık ≈ 4.950 $/ay
Karşılaştırma için, Opus 4.7'de aynı iş yükü 1M başına yaklaşık 15 $ giriş ve 75 $ çıkış oranıyla çok daha pahalıya gelir. Google'ın “aracı görevlerde daha ucuz” iddiasının işaret ettiği maliyet farkı budur.
Senaryo 4: Grafik çıkarma hattı
Varsayımlar:
- Günde 5.000 kontrol paneli ekran görüntüsü
- Her görüntü girişi: ~1.500 jetona eşdeğer
- Çıkış: 300 jeton yapılandırılmış JSON
Günlük maliyet:
giriş = 5.000 × 1.500 × 1,50 / 1.000.000
= 11,25 $/gün
çıkış = 5.000 × 300 × 9,00 / 1.000.000
= 13,50 $/gün
toplam ≈ 25 $/gün
Aylık yaklaşık maliyet:
25 × 30 = 750 $/ay
Toplu mod ile aynı iş yükü yaklaşık 375 $/ay seviyesine düşer. CharXiv'deki %84,2'lik mantık performansı, bu tür görsel çıkarım işlerinde kalitenin korunabileceğini gösterir.
Senaryo 5: Yüksek hacimli içerik üretimi
Varsayımlar:
- Günde 100.000 kısa makale
- Her biri 500 giriş jetonu
- Her biri 2.000 çıkış jetonu
Günlük maliyet:
giriş = 100.000 × 500 × 1,50 / 1.000.000
= 75 $/gün
çıkış = 100.000 × 2.000 × 9,00 / 1.000.000
= 1.800 $/gün
toplam = 1.875 $/gün
Aylık yaklaşık maliyet:
1.875 × 30 = 56.250 $/ay
Bu iş yükü toplu moda taşınırsa aylık fatura yaklaşık 28K $ seviyesine düşer. Bu ölçekte rutin parçaları 3.1 Flash-Lite gibi daha ucuz modellere yönlendirmeyi, Flash'ı daha zor üretimler için kullanmayı test etmek gerekir.
GPT-5.5 ve Opus 4.7'ye karşı maliyet
Ana fiyat karşılaştırması:
| Model | Giriş ($/1M) | Çıkış ($/1M) | Flash'a karşı katı |
|---|---|---|---|
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ | 1 kat (temel) |
| GPT-5.5 | ~10 $ | ~30 $ | 6,7 kat giriş, 3,3 kat çıkış |
| Claude Opus 4.7 | ~15 $ | ~75 $ | 10 kat giriş, 8,3 kat çıkış |
Senaryo 1'i aynı trafikle çalıştırırsanız:
| Model | Günlük maliyet |
|---|---|
| Flash | 39 $/gün |
| GPT-5.5 | ~140 $/gün |
| Opus 4.7 | ~330 $/gün |
Amiral gemisi modeller en zor görevlerde daha iyi kalite sağlayabilir. Ancak günlük üretim iş yüklerinde Flash, maliyetin çok daha küçük bir kısmıyla yeterli olabilir.
Daha detaylı karşılaştırmalar için:
Diğer Gemini varyantlarına karşı maliyet
| Model | Giriş ($/1M) | Çıkış ($/1M) | Ne zaman kullanılmalı |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | ~0,40 $ | ~2,00 $ | Yüksek hacimli rutin işler |
| Gemini 3 Flash | ~0,50 $ | ~3,00 $ | Eski nesil, hâlâ sağlam |
| Gemini 3.1 Pro | ~2,00 $ | ~12,00 $ | 3.5 Pro öncesi muhakeme ağırlıklı işler |
| Gemini 3.5 Flash | ~1,50 $ | ~9,00 $ | Çoğu iş yükü için yeni varsayılan |
| Gemini 3.5 Pro (Haziran 2026) | Belirlenecek | Belirlenecek | En zor muhakeme görevleri |
Flash, 3.x Flash seleflerinden daha pahalıdır ancak önceki Pro katmanından daha ucuzdur. Çoğu ekip için doğru denge şudur:
rutin yüksek hacim -> Flash-Lite
genel üretim yükü -> Gemini 3.5 Flash
en zor muhakeme işleri -> Pro veya amiral gemisi model
Eski Gemini serisi için:
Vertex AI fiyatlandırması: üretim kullanımı
Flash'ı AI Studio yerine Vertex AI üzerinden çağırırsanız, jeton başına fiyatlandırma aynıdır. Fark daha çok platform özelliklerindedir.
Vertex AI ile gelenler:
- API anahtarı yerine hizmet hesabı doğrulaması
- Cloud Logging içinde denetim günlükleri
- Veri yerleşimi kontrolleri
- Ücretsiz katman yoktur
- Yeni hesap için 90 gün içinde 300 $ kredi bulunur
- Ölçekte özel kota görüşmeleri yapılabilir
Önerilen geçiş yolu:
prototip -> AI Studio ücretsiz katman
erken üretim -> AI Studio ücretli kullanım
kurumsal ihtiyaç -> Vertex AI
Model davranışı bu üç kullanım yolunda aynıdır.
Maliyet optimizasyon ipuçları
Gemini 3.5 Flash faturalarını düşürmek için uygulanabilir kontrol listesi:
- Gerçek zamanlı olmayan işleri toplu moda taşıyın. Yaklaşık %50 indirim sağlar.
- Uzun statik önekleri önbelleğe alın. Sistem istemleri, referans belgeler ve talimatlar iyi adaylardır.
- Yapılandırılmış JSON çıktısı kullanın. Daha kısa yanıt, daha düşük çıkış maliyeti demektir.
- Görevi karmaşıklığa göre yönlendirin. Kolay işler Flash-Lite'a, zor işler Flash'a, en zor işler daha güçlü modele.
- Girdileri API'ye göndermeden doğrulayın. Hatalı istekler için jeton harcamayın. Apidog bu hataları API'ye ulaşmadan yakalamanıza yardımcı olur.
- İstem başına maliyeti loglayın. Giriş/çıkış jetonlarını kaydetmeden maliyet optimizasyonu yapamazsınız.
Basit maliyet loglama örneği:
function estimateGeminiFlashCost(inputTokens, outputTokens) {
const inputRate = 1.50; // $ / 1M tokens
const outputRate = 9.00; // $ / 1M tokens
return {
inputCost: (inputTokens * inputRate) / 1_000_000,
outputCost: (outputTokens * outputRate) / 1_000_000,
totalCost:
(inputTokens * inputRate) / 1_000_000 +
(outputTokens * outputRate) / 1_000_000,
};
}
const cost = estimateGeminiFlashCost(2000, 800);
console.log({
model: "gemini-3.5-flash",
inputTokens: 2000,
outputTokens: 800,
estimatedCostUsd: cost.totalCost,
});
İstem doğrulama akışı için Apidog'u indirin, Gemini uç noktanız için bir test senaryosu oluşturun ve yanıt şekli iddiaları ekleyin. Aynı bozuk isteği hata ayıklama sırasında 200 kez çalıştırmak, ücretsiz katman kotasını tek öğleden sonra tüketebilir.
Ücretsiz katman yeterli olmadığında
Ücretsizden ücretli Flash kullanımına geçmeniz gereken üç sinyal:
- Üst üste birkaç gün 1.500 istek/gün sınırına ulaşıyorsunuz. Kota aşma etrafında geliştirme yapmak, ücretli kullanımdan daha pahalıya gelebilir.
- Daha yüksek RPM gerekiyor. Ücretsiz katman dakikada 15 istekle sınırlıdır.
- Veri yerleşimi veya denetim günlüklerine ihtiyacınız var. Bu durumda Vertex AI daha uygun olabilir.
Çoğu ekip için ayda 50-200 $ ücretli Flash kullanımı, ücretsiz katmanla uğraşmaktan daha basit ve daha öngörülebilirdir.
Fiyatlandırma riskleri ve dikkat edilmesi gerekenler
Hesabı değiştirebilecek üç ana risk:
- Kota sıkılaştırması. Google, modeller olgunlaştıkça ücretsiz katman kotalarını değiştirebilir.
- Pro lansman fiyatlandırması. Gemini 3.5 Pro çıktığında Flash fiyatlandırması veya konumlandırması değişebilir.
- Bölge ek ücretleri. Vertex AI fiyatlandırması bölgeye göre değişebilir. ABD Merkezi en ucuz referans olabilir; bazı bölgelerde %10-20 premium görülebilir.
İlk günden maliyet uyarıları kurun:
- AI Studio tarafında proje kotalarını takip edin.
- Vertex AI tarafında Cloud Billing bütçe uyarıları ekleyin.
- Günlük harcama eşiği belirleyin.
- Aykırı istemleri loglayın.
- Çıkış jetonlarını özellikle izleyin; en pahalı kalem genellikle burasıdır.
Sonuç
Gemini 3.5 Flash, 2026'daki çoğu üretim yapay zeka iş yükü için güçlü bir başlangıç noktasıdır. Standart oranlar yaklaşık 1M jeton başına 1,50 $ giriş ve 9 $ çıkış seviyesindedir. Toplu mod ve bağlam önbellekleme ile etkin maliyet daha da düşebilir.
En iyi yaklaşım tek model seçmek değil, görev karmaşıklığına göre yönlendirme yapmaktır:
- Rutin ve yüksek hacimli işler için daha ucuz modeller
- Genel üretim iş yükleri için Gemini 3.5 Flash
- En zor görevler için GPT-5.5 veya Opus 4.7 gibi amiral gemisi modeller
Bunu pratiğe dökmek için:
- Apidog'u indirin.
- Gemini 3.5 Flash uç noktasını bir istek olarak kaydedin.
- Mevcut modelinizle Flash'ı 20 gerçek istem üzerinde karşılaştırın.
- Giriş ve çıkış jetonlarını loglayın.
- Aylık maliyeti hesaplayın.
- Flash'ın daha pahalı modeli nerede değiştirebildiğine ve nerede değiştiremediğine karar verin.
Bu çalışma genellikle iki günde tamamlanır ve ilk fatura döngüsünde kendini geri ödeyebilir.

Top comments (0)