DEV Community

Cover image for Gemini 3.5 Flash Fiyatı: Gerçek Maliyeti Ne Kadar?
Tobias Hoffmann
Tobias Hoffmann

Posted on • Originally published at apidog.com

Gemini 3.5 Flash Fiyatı: Gerçek Maliyeti Ne Kadar?

Google, Gemini 3.5 Flash'ı 19 Mayıs 2026'da piyasaya sürdü ve ana fiyatlandırma iddiası iddialı: aracı görevler için “diğer öncü modellerin yarı fiyatından daha az”. Bu rehber, bu iddiayı jeton maliyeti, ücretsiz katman, toplu mod ve gerçek iş yükleri üzerinden hesaplamaya çevirir.

Apidog'u bugün deneyin

Bu yazıda şunları uygulamalı olarak göreceksiniz:

  • Giriş ve çıkış jeton maliyetleri nasıl hesaplanır
  • Ücretsiz katman hangi kullanım seviyesine kadar yeterlidir
  • Toplu mod ile maliyet nasıl yaklaşık %50 düşürülür
  • Gerçek senaryolarda aylık fatura nasıl tahmin edilir
  • GPT-5.5 ve Claude Opus 4.7 ile maliyet farkı nasıl okunur
  • Üretimde maliyeti kontrol etmek için hangi optimizasyonlar uygulanır

Gemini 3.5 Flash pricing overview

Hızlı özet

Maliyet türü Oran
Standart giriş ~1,50 $ / 1M jeton
Standart çıkış ~9,00 $ / 1M jeton
Toplu mod girişi ~0,75 $ / 1M jeton (~%50 indirim)
Toplu mod çıkışı ~4,50 $ / 1M jeton (~%50 indirim)
Önbelleğe alınmış giriş indirimli oran (değişir)
Ücretsiz katman (AI Studio) ~1.500 istek/gün, 1M jeton/dk, 15 RPM
Vertex AI yeni hesap 90 gün içinde 300 $ kredi

Oranlar Google'ın lansman duyurusu ve toplayıcı listelerine göre Mayıs 2026 itibarıyla geçerlidir. Bütçe ayırmadan önce daima resmi fiyatlandırma sayfasını kontrol edin.

Gemini 3.5 Flash jeton başına oranları

Gemini 3.5 Flash, kullandığın kadar öde modelini kullanır. Giriş ve çıkış jetonları ayrı fiyatlandırılır.

Katman Giriş ($/1M) Çıkış ($/1M)
Standart ~1,50 $ ~9,00 $
Önbelleğe alınmış giriş indirimli yok
Toplu (eşzamansız) ~0,75 $ ~4,50 $

Temel maliyet formülü:

giriş_maliyeti = giriş_jetonu * giriş_oranı / 1_000_000
çıkış_maliyeti = çıkış_jetonu * çıkış_oranı / 1_000_000
toplam_maliyet = giriş_maliyeti + çıkış_maliyeti
Enter fullscreen mode Exit fullscreen mode

Pratik notlar:

  • Jetonlar kelime değildir. Kaba kural: 1.000 jeton ≈ 750 İngilizce kelime. 100.000 kelimelik bir roman yaklaşık 133 bin giriş jetonudur.
  • Çıkış, girişe göre yaklaşık 6 kat daha pahalıdır. Uzun yanıt isteyen istemler, kısa ve yapılandırılmış yanıt isteyen istemlerden çok daha pahalıdır.
  • JSON çıktısı genellikle daha ucuzdur. Modelin daha az metin üretmesini sağladığı için serbest biçimli metne göre maliyeti düşürebilir.

Gemini'nin toplu modunun nasıl çalıştığını görmek için Gemini API toplu modu burada ve %50 daha ucuz makalesine bakın.

Ücretsiz katman: ödeme yapmadan ne elde edersiniz?

AI Studio ücretsiz katmanı, Gemini 3.5 Flash ile kullanılabilir. Lansmandaki sınırlar:

  • Günde 1.500 istek
  • Dakikada 1 milyon jeton
  • Dakikada 15 istek

Bu sınırlar çoğu yan proje, dahili prototip ve küçük otomasyon için yeterlidir. İş yükünüz günde 1.500 çağrının altındaysa, API maliyetiniz 0 $ olabilir.

Ücretsiz katmanda dikkat edilecekler:

  • Kredi kartı gerekmez.
  • Ücretli uç nokta ile aynı gemini-3.5-flash modeli kullanılır.
  • SDK deseni aynıdır; farklı anahtar kullanırsınız.
  • İstemler Google'ın modellerini geliştirmek için kullanılabilir. Bunu AI Studio ayarlarından devre dışı bırakın.
  • Kotalar değişebilir; mimariyi tam 1.500 istek/gün sınırına göre tasarlamayın.

Kurulum için şu rehberlere bakabilirsiniz:

Toplu mod: çoğu ekibin kaçırdığı %50 indirim

İş yükünüz gerçek zamanlı yanıt gerektirmiyorsa, toplu mod Flash maliyetlerini yaklaşık yarıya indirir.

Çalışma şekli:

  1. Tek seferde 50.000 adede kadar istem içeren bir toplu iş gönderin.
  2. Google bu istekleri 24 saat içinde işler.
  3. Hem giriş hem çıkış jetonlarında yaklaşık %50 daha az ödersiniz.

Toplu modun uygun olduğu işler:

  • Belge analizi
  • Yasal inceleme
  • Destek bileti sınıflandırması
  • İçerik denetimi
  • SaaS panelleri için gece içerik üretimi
  • Geçmiş verileri yeniden işleme
  • Gecikmeye toleranslı ön hesaplama işleri

Uygun olmadığı işler:

  • Sohbet arayüzleri
  • Canlı kullanıcı etkileşimleri
  • Gerçek zamanlı ajan döngüleri
  • Kullanıcının hemen yanıt beklediği akışlar

Üretim yığınınızda şu ayrımı yapın:

gerçek zamanlı mı?
├─ evet  -> standart Gemini 3.5 Flash çağrısı
└─ hayır -> toplu mod
Enter fullscreen mode Exit fullscreen mode

Kurulum detayları için toplu mod rehberimize bakın.

Önbelleğe alınmış giriş: başka bir maliyet kaldıraç noktası

İstemleriniz uzun ve statik bir önek paylaşıyorsa, bağlam önbellekleme maliyeti düşürebilir.

Tipik adaylar:

  • Sistem istemleri
  • Uzun talimat blokları
  • Referans belgeler
  • Sık kullanılan RAG parçaları
  • Ürün dokümantasyonu
  • Politika veya sözleşme metinleri

Örnek desen:

  1. 100K jetonluk referans belgeyi bir kez önbelleğe alın.
  2. Binlerce sorguda aynı bağlamı yeniden kullanın.
  3. Tam oranı yalnızca yeni soru için ödeyin.
  4. Önbelleğe alınmış önek için indirimli oran ödeyin.

Somut tasarruf, önbellek isabet oranına bağlıdır. Aynı referans parçalarının tekrar tekrar kullanıldığı RAG tarzı uygulamalarda %30-60 giriş maliyeti azalması beklenebilir.

Gerçek dünya maliyet senaryoları

Aşağıdaki hesaplamalar standart Gemini 3.5 Flash oranlarıyla yapılmıştır:

giriş: 1,50 $ / 1M jeton
çıkış: 9,00 $ / 1M jeton
Enter fullscreen mode Exit fullscreen mode

Senaryo 1: Müşteri destek sohbet botu

Varsayımlar:

  • Günde 10.000 kullanıcı mesajı
  • Ortalama 200 giriş jetonu
  • Ortalama 400 çıkış jetonu

Günlük maliyet:

giriş = 10.000 × 200 × 1,50 / 1.000.000
      = 3,00 $/gün

çıkış = 10.000 × 400 × 9,00 / 1.000.000
      = 36,00 $/gün

toplam = 39,00 $/gün
Enter fullscreen mode Exit fullscreen mode

Aylık yaklaşık maliyet:

39 × 30 = 1.170 $/ay
Enter fullscreen mode Exit fullscreen mode

Toplu yanıtlara tolerans varsa, toplu mod ile yaklaşık:

1.170 / 2 = 585 $/ay
Enter fullscreen mode Exit fullscreen mode

Sistem istemi için bağlam önbellekleme eklenirse ek %20-30 indirim sağlanabilir.

Senaryo 2: Belge Soru-Cevap SaaS

Varsayımlar:

  • Günde 1.000 belge analiz ediliyor
  • Her belge ortalama 30K jeton
  • Her Soru-Cevap 500 çıkış jetonu döndürüyor

Günlük maliyet:

giriş = 1.000 × 30.000 × 1,50 / 1.000.000
      = 45,00 $/gün

çıkış = 1.000 × 500 × 9,00 / 1.000.000
      = 4,50 $/gün

toplam ≈ 50 $/gün
Enter fullscreen mode Exit fullscreen mode

Aylık yaklaşık maliyet:

50 × 30 = 1.500 $/ay
Enter fullscreen mode Exit fullscreen mode

Flash'ın 1M bağlam penceresi bu senaryoda kullanışlıdır: parçalama altyapısı kurmadan tüm belgeyi gönderebilirsiniz. Amiral gemisi modelle parçalı RAG çalıştırmaya kıyasla API ve altyapı maliyeti daha yüksek olabilir.

Senaryo 3: Uzun süreli otonom ajan

Varsayımlar:

  • Bir ajan çalıştırması = ~50 model dönüşü
  • Her dönüş ortalama 5K giriş ve 1K çıkış
  • Günde 200 çalıştırma

Çalıştırma başına maliyet:

giriş = 50 × 5.000 × 1,50 / 1.000.000
      = 0,375 $

çıkış = 50 × 1.000 × 9,00 / 1.000.000
      = 0,45 $

toplam ≈ 0,83 $ / çalıştırma
Enter fullscreen mode Exit fullscreen mode

Günlük ve aylık maliyet:

günlük = 200 × 0,83 = 166 $/gün
aylık  ≈ 4.950 $/ay
Enter fullscreen mode Exit fullscreen mode

Karşılaştırma için, Opus 4.7'de aynı iş yükü 1M başına yaklaşık 15 $ giriş ve 75 $ çıkış oranıyla çok daha pahalıya gelir. Google'ın “aracı görevlerde daha ucuz” iddiasının işaret ettiği maliyet farkı budur.

Senaryo 4: Grafik çıkarma hattı

Varsayımlar:

  • Günde 5.000 kontrol paneli ekran görüntüsü
  • Her görüntü girişi: ~1.500 jetona eşdeğer
  • Çıkış: 300 jeton yapılandırılmış JSON

Günlük maliyet:

giriş = 5.000 × 1.500 × 1,50 / 1.000.000
      = 11,25 $/gün

çıkış = 5.000 × 300 × 9,00 / 1.000.000
      = 13,50 $/gün

toplam ≈ 25 $/gün
Enter fullscreen mode Exit fullscreen mode

Aylık yaklaşık maliyet:

25 × 30 = 750 $/ay
Enter fullscreen mode Exit fullscreen mode

Toplu mod ile aynı iş yükü yaklaşık 375 $/ay seviyesine düşer. CharXiv'deki %84,2'lik mantık performansı, bu tür görsel çıkarım işlerinde kalitenin korunabileceğini gösterir.

Senaryo 5: Yüksek hacimli içerik üretimi

Varsayımlar:

  • Günde 100.000 kısa makale
  • Her biri 500 giriş jetonu
  • Her biri 2.000 çıkış jetonu

Günlük maliyet:

giriş = 100.000 × 500 × 1,50 / 1.000.000
      = 75 $/gün

çıkış = 100.000 × 2.000 × 9,00 / 1.000.000
      = 1.800 $/gün

toplam = 1.875 $/gün
Enter fullscreen mode Exit fullscreen mode

Aylık yaklaşık maliyet:

1.875 × 30 = 56.250 $/ay
Enter fullscreen mode Exit fullscreen mode

Bu iş yükü toplu moda taşınırsa aylık fatura yaklaşık 28K $ seviyesine düşer. Bu ölçekte rutin parçaları 3.1 Flash-Lite gibi daha ucuz modellere yönlendirmeyi, Flash'ı daha zor üretimler için kullanmayı test etmek gerekir.

GPT-5.5 ve Opus 4.7'ye karşı maliyet

Ana fiyat karşılaştırması:

Model Giriş ($/1M) Çıkış ($/1M) Flash'a karşı katı
Gemini 3.5 Flash ~1,50 $ ~9,00 $ 1 kat (temel)
GPT-5.5 ~10 $ ~30 $ 6,7 kat giriş, 3,3 kat çıkış
Claude Opus 4.7 ~15 $ ~75 $ 10 kat giriş, 8,3 kat çıkış

Senaryo 1'i aynı trafikle çalıştırırsanız:

Model Günlük maliyet
Flash 39 $/gün
GPT-5.5 ~140 $/gün
Opus 4.7 ~330 $/gün

Amiral gemisi modeller en zor görevlerde daha iyi kalite sağlayabilir. Ancak günlük üretim iş yüklerinde Flash, maliyetin çok daha küçük bir kısmıyla yeterli olabilir.

Daha detaylı karşılaştırmalar için:

Diğer Gemini varyantlarına karşı maliyet

Model Giriş ($/1M) Çıkış ($/1M) Ne zaman kullanılmalı
Gemini 3.1 Flash-Lite ~0,40 $ ~2,00 $ Yüksek hacimli rutin işler
Gemini 3 Flash ~0,50 $ ~3,00 $ Eski nesil, hâlâ sağlam
Gemini 3.1 Pro ~2,00 $ ~12,00 $ 3.5 Pro öncesi muhakeme ağırlıklı işler
Gemini 3.5 Flash ~1,50 $ ~9,00 $ Çoğu iş yükü için yeni varsayılan
Gemini 3.5 Pro (Haziran 2026) Belirlenecek Belirlenecek En zor muhakeme görevleri

Flash, 3.x Flash seleflerinden daha pahalıdır ancak önceki Pro katmanından daha ucuzdur. Çoğu ekip için doğru denge şudur:

rutin yüksek hacim     -> Flash-Lite
genel üretim yükü      -> Gemini 3.5 Flash
en zor muhakeme işleri -> Pro veya amiral gemisi model
Enter fullscreen mode Exit fullscreen mode

Eski Gemini serisi için:

Vertex AI fiyatlandırması: üretim kullanımı

Flash'ı AI Studio yerine Vertex AI üzerinden çağırırsanız, jeton başına fiyatlandırma aynıdır. Fark daha çok platform özelliklerindedir.

Vertex AI ile gelenler:

  • API anahtarı yerine hizmet hesabı doğrulaması
  • Cloud Logging içinde denetim günlükleri
  • Veri yerleşimi kontrolleri
  • Ücretsiz katman yoktur
  • Yeni hesap için 90 gün içinde 300 $ kredi bulunur
  • Ölçekte özel kota görüşmeleri yapılabilir

Önerilen geçiş yolu:

prototip       -> AI Studio ücretsiz katman
erken üretim   -> AI Studio ücretli kullanım
kurumsal ihtiyaç -> Vertex AI
Enter fullscreen mode Exit fullscreen mode

Model davranışı bu üç kullanım yolunda aynıdır.

Maliyet optimizasyon ipuçları

Gemini 3.5 Flash faturalarını düşürmek için uygulanabilir kontrol listesi:

  1. Gerçek zamanlı olmayan işleri toplu moda taşıyın. Yaklaşık %50 indirim sağlar.
  2. Uzun statik önekleri önbelleğe alın. Sistem istemleri, referans belgeler ve talimatlar iyi adaylardır.
  3. Yapılandırılmış JSON çıktısı kullanın. Daha kısa yanıt, daha düşük çıkış maliyeti demektir.
  4. Görevi karmaşıklığa göre yönlendirin. Kolay işler Flash-Lite'a, zor işler Flash'a, en zor işler daha güçlü modele.
  5. Girdileri API'ye göndermeden doğrulayın. Hatalı istekler için jeton harcamayın. Apidog bu hataları API'ye ulaşmadan yakalamanıza yardımcı olur.
  6. İstem başına maliyeti loglayın. Giriş/çıkış jetonlarını kaydetmeden maliyet optimizasyonu yapamazsınız.

Basit maliyet loglama örneği:

function estimateGeminiFlashCost(inputTokens, outputTokens) {
  const inputRate = 1.50;  // $ / 1M tokens
  const outputRate = 9.00; // $ / 1M tokens

  return {
    inputCost: (inputTokens * inputRate) / 1_000_000,
    outputCost: (outputTokens * outputRate) / 1_000_000,
    totalCost:
      (inputTokens * inputRate) / 1_000_000 +
      (outputTokens * outputRate) / 1_000_000,
  };
}

const cost = estimateGeminiFlashCost(2000, 800);

console.log({
  model: "gemini-3.5-flash",
  inputTokens: 2000,
  outputTokens: 800,
  estimatedCostUsd: cost.totalCost,
});
Enter fullscreen mode Exit fullscreen mode

İstem doğrulama akışı için Apidog'u indirin, Gemini uç noktanız için bir test senaryosu oluşturun ve yanıt şekli iddiaları ekleyin. Aynı bozuk isteği hata ayıklama sırasında 200 kez çalıştırmak, ücretsiz katman kotasını tek öğleden sonra tüketebilir.

Ücretsiz katman yeterli olmadığında

Ücretsizden ücretli Flash kullanımına geçmeniz gereken üç sinyal:

  1. Üst üste birkaç gün 1.500 istek/gün sınırına ulaşıyorsunuz. Kota aşma etrafında geliştirme yapmak, ücretli kullanımdan daha pahalıya gelebilir.
  2. Daha yüksek RPM gerekiyor. Ücretsiz katman dakikada 15 istekle sınırlıdır.
  3. Veri yerleşimi veya denetim günlüklerine ihtiyacınız var. Bu durumda Vertex AI daha uygun olabilir.

Çoğu ekip için ayda 50-200 $ ücretli Flash kullanımı, ücretsiz katmanla uğraşmaktan daha basit ve daha öngörülebilirdir.

Fiyatlandırma riskleri ve dikkat edilmesi gerekenler

Hesabı değiştirebilecek üç ana risk:

  • Kota sıkılaştırması. Google, modeller olgunlaştıkça ücretsiz katman kotalarını değiştirebilir.
  • Pro lansman fiyatlandırması. Gemini 3.5 Pro çıktığında Flash fiyatlandırması veya konumlandırması değişebilir.
  • Bölge ek ücretleri. Vertex AI fiyatlandırması bölgeye göre değişebilir. ABD Merkezi en ucuz referans olabilir; bazı bölgelerde %10-20 premium görülebilir.

İlk günden maliyet uyarıları kurun:

  • AI Studio tarafında proje kotalarını takip edin.
  • Vertex AI tarafında Cloud Billing bütçe uyarıları ekleyin.
  • Günlük harcama eşiği belirleyin.
  • Aykırı istemleri loglayın.
  • Çıkış jetonlarını özellikle izleyin; en pahalı kalem genellikle burasıdır.

Sonuç

Gemini 3.5 Flash, 2026'daki çoğu üretim yapay zeka iş yükü için güçlü bir başlangıç noktasıdır. Standart oranlar yaklaşık 1M jeton başına 1,50 $ giriş ve 9 $ çıkış seviyesindedir. Toplu mod ve bağlam önbellekleme ile etkin maliyet daha da düşebilir.

En iyi yaklaşım tek model seçmek değil, görev karmaşıklığına göre yönlendirme yapmaktır:

  • Rutin ve yüksek hacimli işler için daha ucuz modeller
  • Genel üretim iş yükleri için Gemini 3.5 Flash
  • En zor görevler için GPT-5.5 veya Opus 4.7 gibi amiral gemisi modeller

Bunu pratiğe dökmek için:

  1. Apidog'u indirin.
  2. Gemini 3.5 Flash uç noktasını bir istek olarak kaydedin.
  3. Mevcut modelinizle Flash'ı 20 gerçek istem üzerinde karşılaştırın.
  4. Giriş ve çıkış jetonlarını loglayın.
  5. Aylık maliyeti hesaplayın.
  6. Flash'ın daha pahalı modeli nerede değiştirebildiğine ve nerede değiştiremediğine karar verin.

Bu çalışma genellikle iki günde tamamlanır ve ilk fatura döngüsünde kendini geri ödeyebilir.

Top comments (0)