Tobias Hoffmann

Posted on May 20 • Originally published at apidog.com

Gemini 3.5 Flash Fiyatı: Gerçek Maliyeti Ne Kadar?

Google, Gemini 3.5 Flash'ı 19 Mayıs 2026'da piyasaya sürdü ve ana fiyatlandırma iddiası iddialı: aracı görevler için “diğer öncü modellerin yarı fiyatından daha az”. Bu rehber, bu iddiayı jeton maliyeti, ücretsiz katman, toplu mod ve gerçek iş yükleri üzerinden hesaplamaya çevirir.

Apidog'u bugün deneyin

Bu yazıda şunları uygulamalı olarak göreceksiniz:

Giriş ve çıkış jeton maliyetleri nasıl hesaplanır
Ücretsiz katman hangi kullanım seviyesine kadar yeterlidir
Toplu mod ile maliyet nasıl yaklaşık %50 düşürülür
Gerçek senaryolarda aylık fatura nasıl tahmin edilir
GPT-5.5 ve Claude Opus 4.7 ile maliyet farkı nasıl okunur
Üretimde maliyeti kontrol etmek için hangi optimizasyonlar uygulanır

Hızlı özet

Maliyet türü	Oran
Standart giriş	~1,50 $ / 1M jeton
Standart çıkış	~9,00 $ / 1M jeton
Toplu mod girişi	~0,75 $ / 1M jeton (~%50 indirim)
Toplu mod çıkışı	~4,50 $ / 1M jeton (~%50 indirim)
Önbelleğe alınmış giriş	indirimli oran (değişir)
Ücretsiz katman (AI Studio)	~1.500 istek/gün, 1M jeton/dk, 15 RPM
Vertex AI yeni hesap	90 gün içinde 300 $ kredi

Oranlar Google'ın lansman duyurusu ve toplayıcı listelerine göre Mayıs 2026 itibarıyla geçerlidir. Bütçe ayırmadan önce daima resmi fiyatlandırma sayfasını kontrol edin.

Gemini 3.5 Flash jeton başına oranları

Gemini 3.5 Flash, kullandığın kadar öde modelini kullanır. Giriş ve çıkış jetonları ayrı fiyatlandırılır.

Katman	Giriş ($/1M)	Çıkış ($/1M)
Standart	~1,50 $	~9,00 $
Önbelleğe alınmış giriş	indirimli	yok
Toplu (eşzamansız)	~0,75 $	~4,50 $

Temel maliyet formülü:

giriş_maliyeti = giriş_jetonu * giriş_oranı / 1_000_000
çıkış_maliyeti = çıkış_jetonu * çıkış_oranı / 1_000_000
toplam_maliyet = giriş_maliyeti + çıkış_maliyeti

Pratik notlar:

Jetonlar kelime değildir. Kaba kural: 1.000 jeton ≈ 750 İngilizce kelime. 100.000 kelimelik bir roman yaklaşık 133 bin giriş jetonudur.
Çıkış, girişe göre yaklaşık 6 kat daha pahalıdır. Uzun yanıt isteyen istemler, kısa ve yapılandırılmış yanıt isteyen istemlerden çok daha pahalıdır.
JSON çıktısı genellikle daha ucuzdur. Modelin daha az metin üretmesini sağladığı için serbest biçimli metne göre maliyeti düşürebilir.

Gemini'nin toplu modunun nasıl çalıştığını görmek için Gemini API toplu modu burada ve %50 daha ucuz makalesine bakın.

Ücretsiz katman: ödeme yapmadan ne elde edersiniz?

AI Studio ücretsiz katmanı, Gemini 3.5 Flash ile kullanılabilir. Lansmandaki sınırlar:

Günde 1.500 istek
Dakikada 1 milyon jeton
Dakikada 15 istek

Bu sınırlar çoğu yan proje, dahili prototip ve küçük otomasyon için yeterlidir. İş yükünüz günde 1.500 çağrının altındaysa, API maliyetiniz 0 $ olabilir.

Ücretsiz katmanda dikkat edilecekler:

Kredi kartı gerekmez.
Ücretli uç nokta ile aynı gemini-3.5-flash modeli kullanılır.
SDK deseni aynıdır; farklı anahtar kullanırsınız.
İstemler Google'ın modellerini geliştirmek için kullanılabilir. Bunu AI Studio ayarlarından devre dışı bırakın.
Kotalar değişebilir; mimariyi tam 1.500 istek/gün sınırına göre tasarlamayın.

Kurulum için şu rehberlere bakabilirsiniz:

Toplu mod: çoğu ekibin kaçırdığı %50 indirim

İş yükünüz gerçek zamanlı yanıt gerektirmiyorsa, toplu mod Flash maliyetlerini yaklaşık yarıya indirir.

Çalışma şekli:

Tek seferde 50.000 adede kadar istem içeren bir toplu iş gönderin.
Google bu istekleri 24 saat içinde işler.
Hem giriş hem çıkış jetonlarında yaklaşık %50 daha az ödersiniz.

Toplu modun uygun olduğu işler:

Belge analizi
Yasal inceleme
Destek bileti sınıflandırması
İçerik denetimi
SaaS panelleri için gece içerik üretimi
Geçmiş verileri yeniden işleme
Gecikmeye toleranslı ön hesaplama işleri

Uygun olmadığı işler:

Sohbet arayüzleri
Canlı kullanıcı etkileşimleri
Gerçek zamanlı ajan döngüleri
Kullanıcının hemen yanıt beklediği akışlar

Üretim yığınınızda şu ayrımı yapın:

gerçek zamanlı mı?
├─ evet  -> standart Gemini 3.5 Flash çağrısı
└─ hayır -> toplu mod

Kurulum detayları için toplu mod rehberimize bakın.

Önbelleğe alınmış giriş: başka bir maliyet kaldıraç noktası

İstemleriniz uzun ve statik bir önek paylaşıyorsa, bağlam önbellekleme maliyeti düşürebilir.

Tipik adaylar:

Sistem istemleri
Uzun talimat blokları
Referans belgeler
Sık kullanılan RAG parçaları
Ürün dokümantasyonu
Politika veya sözleşme metinleri

Örnek desen:

100K jetonluk referans belgeyi bir kez önbelleğe alın.
Binlerce sorguda aynı bağlamı yeniden kullanın.
Tam oranı yalnızca yeni soru için ödeyin.
Önbelleğe alınmış önek için indirimli oran ödeyin.

Somut tasarruf, önbellek isabet oranına bağlıdır. Aynı referans parçalarının tekrar tekrar kullanıldığı RAG tarzı uygulamalarda %30-60 giriş maliyeti azalması beklenebilir.

Gerçek dünya maliyet senaryoları

Aşağıdaki hesaplamalar standart Gemini 3.5 Flash oranlarıyla yapılmıştır:

giriş: 1,50 $ / 1M jeton
çıkış: 9,00 $ / 1M jeton

Senaryo 1: Müşteri destek sohbet botu

Varsayımlar:

Günde 10.000 kullanıcı mesajı
Ortalama 200 giriş jetonu
Ortalama 400 çıkış jetonu

Günlük maliyet:

giriş = 10.000 × 200 × 1,50 / 1.000.000
      = 3,00 $/gün

çıkış = 10.000 × 400 × 9,00 / 1.000.000
      = 36,00 $/gün

toplam = 39,00 $/gün

Aylık yaklaşık maliyet:

39 × 30 = 1.170 $/ay

Toplu yanıtlara tolerans varsa, toplu mod ile yaklaşık:

1.170 / 2 = 585 $/ay

Sistem istemi için bağlam önbellekleme eklenirse ek %20-30 indirim sağlanabilir.

Senaryo 2: Belge Soru-Cevap SaaS

Varsayımlar:

Günde 1.000 belge analiz ediliyor
Her belge ortalama 30K jeton
Her Soru-Cevap 500 çıkış jetonu döndürüyor

Günlük maliyet:

giriş = 1.000 × 30.000 × 1,50 / 1.000.000
      = 45,00 $/gün

çıkış = 1.000 × 500 × 9,00 / 1.000.000
      = 4,50 $/gün

toplam ≈ 50 $/gün

Aylık yaklaşık maliyet:

50 × 30 = 1.500 $/ay

Flash'ın 1M bağlam penceresi bu senaryoda kullanışlıdır: parçalama altyapısı kurmadan tüm belgeyi gönderebilirsiniz. Amiral gemisi modelle parçalı RAG çalıştırmaya kıyasla API ve altyapı maliyeti daha yüksek olabilir.

Senaryo 3: Uzun süreli otonom ajan

Varsayımlar:

Bir ajan çalıştırması = ~50 model dönüşü
Her dönüş ortalama 5K giriş ve 1K çıkış
Günde 200 çalıştırma

Çalıştırma başına maliyet:

giriş = 50 × 5.000 × 1,50 / 1.000.000
      = 0,375 $

çıkış = 50 × 1.000 × 9,00 / 1.000.000
      = 0,45 $

toplam ≈ 0,83 $ / çalıştırma

Günlük ve aylık maliyet:

günlük = 200 × 0,83 = 166 $/gün
aylık  ≈ 4.950 $/ay

Karşılaştırma için, Opus 4.7'de aynı iş yükü 1M başına yaklaşık 15 $ giriş ve 75 $ çıkış oranıyla çok daha pahalıya gelir. Google'ın “aracı görevlerde daha ucuz” iddiasının işaret ettiği maliyet farkı budur.

Senaryo 4: Grafik çıkarma hattı

Varsayımlar:

Günde 5.000 kontrol paneli ekran görüntüsü
Her görüntü girişi: ~1.500 jetona eşdeğer
Çıkış: 300 jeton yapılandırılmış JSON

Günlük maliyet:

giriş = 5.000 × 1.500 × 1,50 / 1.000.000
      = 11,25 $/gün

çıkış = 5.000 × 300 × 9,00 / 1.000.000
      = 13,50 $/gün

toplam ≈ 25 $/gün

Aylık yaklaşık maliyet:

25 × 30 = 750 $/ay

Toplu mod ile aynı iş yükü yaklaşık 375 $/ay seviyesine düşer. CharXiv'deki %84,2'lik mantık performansı, bu tür görsel çıkarım işlerinde kalitenin korunabileceğini gösterir.

Senaryo 5: Yüksek hacimli içerik üretimi

Varsayımlar:

Günde 100.000 kısa makale
Her biri 500 giriş jetonu
Her biri 2.000 çıkış jetonu

Günlük maliyet:

giriş = 100.000 × 500 × 1,50 / 1.000.000
      = 75 $/gün

çıkış = 100.000 × 2.000 × 9,00 / 1.000.000
      = 1.800 $/gün

toplam = 1.875 $/gün

Aylık yaklaşık maliyet:

1.875 × 30 = 56.250 $/ay

Bu iş yükü toplu moda taşınırsa aylık fatura yaklaşık 28K $ seviyesine düşer. Bu ölçekte rutin parçaları 3.1 Flash-Lite gibi daha ucuz modellere yönlendirmeyi, Flash'ı daha zor üretimler için kullanmayı test etmek gerekir.

GPT-5.5 ve Opus 4.7'ye karşı maliyet

Ana fiyat karşılaştırması:

Model	Giriş ($/1M)	Çıkış ($/1M)	Flash'a karşı katı
Gemini 3.5 Flash	~1,50 $	~9,00 $	1 kat (temel)
GPT-5.5	~10 $	~30 $	6,7 kat giriş, 3,3 kat çıkış
Claude Opus 4.7	~15 $	~75 $	10 kat giriş, 8,3 kat çıkış

Senaryo 1'i aynı trafikle çalıştırırsanız:

Model	Günlük maliyet
Flash	39 $/gün
GPT-5.5	~140 $/gün
Opus 4.7	~330 $/gün

Amiral gemisi modeller en zor görevlerde daha iyi kalite sağlayabilir. Ancak günlük üretim iş yüklerinde Flash, maliyetin çok daha küçük bir kısmıyla yeterli olabilir.

Daha detaylı karşılaştırmalar için:

Diğer Gemini varyantlarına karşı maliyet

Model	Giriş ($/1M)	Çıkış ($/1M)	Ne zaman kullanılmalı
Gemini 3.1 Flash-Lite	~0,40 $	~2,00 $	Yüksek hacimli rutin işler
Gemini 3 Flash	~0,50 $	~3,00 $	Eski nesil, hâlâ sağlam
Gemini 3.1 Pro	~2,00 $	~12,00 $	3.5 Pro öncesi muhakeme ağırlıklı işler
Gemini 3.5 Flash	~1,50 $	~9,00 $	Çoğu iş yükü için yeni varsayılan
Gemini 3.5 Pro (Haziran 2026)	Belirlenecek	Belirlenecek	En zor muhakeme görevleri

Flash, 3.x Flash seleflerinden daha pahalıdır ancak önceki Pro katmanından daha ucuzdur. Çoğu ekip için doğru denge şudur:

rutin yüksek hacim     -> Flash-Lite
genel üretim yükü      -> Gemini 3.5 Flash
en zor muhakeme işleri -> Pro veya amiral gemisi model

Eski Gemini serisi için:

Vertex AI fiyatlandırması: üretim kullanımı

Flash'ı AI Studio yerine Vertex AI üzerinden çağırırsanız, jeton başına fiyatlandırma aynıdır. Fark daha çok platform özelliklerindedir.

Vertex AI ile gelenler:

API anahtarı yerine hizmet hesabı doğrulaması
Cloud Logging içinde denetim günlükleri
Veri yerleşimi kontrolleri
Ücretsiz katman yoktur
Yeni hesap için 90 gün içinde 300 $ kredi bulunur
Ölçekte özel kota görüşmeleri yapılabilir

Önerilen geçiş yolu:

prototip       -> AI Studio ücretsiz katman
erken üretim   -> AI Studio ücretli kullanım
kurumsal ihtiyaç -> Vertex AI

Model davranışı bu üç kullanım yolunda aynıdır.

Maliyet optimizasyon ipuçları

Gemini 3.5 Flash faturalarını düşürmek için uygulanabilir kontrol listesi:

Gerçek zamanlı olmayan işleri toplu moda taşıyın. Yaklaşık %50 indirim sağlar.
Uzun statik önekleri önbelleğe alın. Sistem istemleri, referans belgeler ve talimatlar iyi adaylardır.
Yapılandırılmış JSON çıktısı kullanın. Daha kısa yanıt, daha düşük çıkış maliyeti demektir.
Görevi karmaşıklığa göre yönlendirin. Kolay işler Flash-Lite'a, zor işler Flash'a, en zor işler daha güçlü modele.
Girdileri API'ye göndermeden doğrulayın. Hatalı istekler için jeton harcamayın. Apidog bu hataları API'ye ulaşmadan yakalamanıza yardımcı olur.
İstem başına maliyeti loglayın. Giriş/çıkış jetonlarını kaydetmeden maliyet optimizasyonu yapamazsınız.

Basit maliyet loglama örneği:

function estimateGeminiFlashCost(inputTokens, outputTokens) {
  const inputRate = 1.50;  // $ / 1M tokens
  const outputRate = 9.00; // $ / 1M tokens

  return {
    inputCost: (inputTokens * inputRate) / 1_000_000,
    outputCost: (outputTokens * outputRate) / 1_000_000,
    totalCost:
      (inputTokens * inputRate) / 1_000_000 +
      (outputTokens * outputRate) / 1_000_000,
  };
}

const cost = estimateGeminiFlashCost(2000, 800);

console.log({
  model: "gemini-3.5-flash",
  inputTokens: 2000,
  outputTokens: 800,
  estimatedCostUsd: cost.totalCost,
});

İstem doğrulama akışı için Apidog'u indirin, Gemini uç noktanız için bir test senaryosu oluşturun ve yanıt şekli iddiaları ekleyin. Aynı bozuk isteği hata ayıklama sırasında 200 kez çalıştırmak, ücretsiz katman kotasını tek öğleden sonra tüketebilir.

Ücretsiz katman yeterli olmadığında

Ücretsizden ücretli Flash kullanımına geçmeniz gereken üç sinyal:

Üst üste birkaç gün 1.500 istek/gün sınırına ulaşıyorsunuz. Kota aşma etrafında geliştirme yapmak, ücretli kullanımdan daha pahalıya gelebilir.
Daha yüksek RPM gerekiyor. Ücretsiz katman dakikada 15 istekle sınırlıdır.
Veri yerleşimi veya denetim günlüklerine ihtiyacınız var. Bu durumda Vertex AI daha uygun olabilir.

Çoğu ekip için ayda 50-200 $ ücretli Flash kullanımı, ücretsiz katmanla uğraşmaktan daha basit ve daha öngörülebilirdir.

Fiyatlandırma riskleri ve dikkat edilmesi gerekenler

Hesabı değiştirebilecek üç ana risk:

Kota sıkılaştırması. Google, modeller olgunlaştıkça ücretsiz katman kotalarını değiştirebilir.
Pro lansman fiyatlandırması. Gemini 3.5 Pro çıktığında Flash fiyatlandırması veya konumlandırması değişebilir.
Bölge ek ücretleri. Vertex AI fiyatlandırması bölgeye göre değişebilir. ABD Merkezi en ucuz referans olabilir; bazı bölgelerde %10-20 premium görülebilir.

İlk günden maliyet uyarıları kurun:

AI Studio tarafında proje kotalarını takip edin.
Vertex AI tarafında Cloud Billing bütçe uyarıları ekleyin.
Günlük harcama eşiği belirleyin.
Aykırı istemleri loglayın.
Çıkış jetonlarını özellikle izleyin; en pahalı kalem genellikle burasıdır.

Sonuç

Gemini 3.5 Flash, 2026'daki çoğu üretim yapay zeka iş yükü için güçlü bir başlangıç noktasıdır. Standart oranlar yaklaşık 1M jeton başına 1,50 $ giriş ve 9 $ çıkış seviyesindedir. Toplu mod ve bağlam önbellekleme ile etkin maliyet daha da düşebilir.

En iyi yaklaşım tek model seçmek değil, görev karmaşıklığına göre yönlendirme yapmaktır:

Rutin ve yüksek hacimli işler için daha ucuz modeller
Genel üretim iş yükleri için Gemini 3.5 Flash
En zor görevler için GPT-5.5 veya Opus 4.7 gibi amiral gemisi modeller

Bunu pratiğe dökmek için:

Apidog'u indirin.
Gemini 3.5 Flash uç noktasını bir istek olarak kaydedin.
Mevcut modelinizle Flash'ı 20 gerçek istem üzerinde karşılaştırın.
Giriş ve çıkış jetonlarını loglayın.
Aylık maliyeti hesaplayın.
Flash'ın daha pahalı modeli nerede değiştirebildiğine ve nerede değiştiremediğine karar verin.

Bu çalışma genellikle iki günde tamamlanır ve ilk fatura döngüsünde kendini geri ödeyebilir.

DEV Community

Gemini 3.5 Flash Fiyatı: Gerçek Maliyeti Ne Kadar?

Hızlı özet

Gemini 3.5 Flash jeton başına oranları

Ücretsiz katman: ödeme yapmadan ne elde edersiniz?

Toplu mod: çoğu ekibin kaçırdığı %50 indirim

Önbelleğe alınmış giriş: başka bir maliyet kaldıraç noktası

Gerçek dünya maliyet senaryoları

Senaryo 1: Müşteri destek sohbet botu

Senaryo 2: Belge Soru-Cevap SaaS

Senaryo 3: Uzun süreli otonom ajan

Senaryo 4: Grafik çıkarma hattı

Senaryo 5: Yüksek hacimli içerik üretimi

GPT-5.5 ve Opus 4.7'ye karşı maliyet

Diğer Gemini varyantlarına karşı maliyet

Vertex AI fiyatlandırması: üretim kullanımı

Maliyet optimizasyon ipuçları

Ücretsiz katman yeterli olmadığında

Fiyatlandırma riskleri ve dikkat edilmesi gerekenler

Sonuç

Top comments (0)