Walse

Posted on May 20 • Originally published at apidog.com

Harga Gemini 3.5 Flash: Berapa Biayanya?

Google merilis Gemini 3.5 Flash pada 19 Mei 2026, dengan klaim harga utama: “kurang dari setengah biaya model canggih lainnya” untuk tugas-tugas agensi. Artikel ini fokus pada cara menghitung biaya sebenarnya sebelum Anda menggunakannya di produksi.

Coba Apidog hari ini

Anda akan melihat tarif per-token, batas tingkat gratis, diskon mode batch, skenario biaya untuk beban kerja umum, dan perbandingan biaya dengan GPT-5.5 serta Claude Opus 4.7. Tujuannya sederhana: tahu berapa biaya menjalankan Flash, lalu memilih strategi untuk memangkas biaya tanpa menurunkan kualitas secara signifikan.

Ringkasan cepat

Jenis biaya	Tarif
Input standar	~$1.50 / 1 juta token
Output standar	~$9.00 / 1 juta token
Input mode batch	~$0.75 / 1 juta token (~diskon 50%)
Output mode batch	~$4.50 / 1 juta token (~diskon 50%)
Input cache	tarif diskon, bervariasi
Tingkat gratis AI Studio	~1.500 permintaan/hari, 1 juta token/menit, 15 RPM
Akun baru Vertex AI	Kredit $300 selama 90 hari

Tarif berlaku mulai Mei 2026 berdasarkan pengumuman peluncuran Google dan daftar agregator. Sebelum membuat estimasi anggaran final, selalu cek halaman harga resmi.

Tarif per-token Gemini 3.5 Flash

Flash memakai model bayar-sesuai-pakai. Anda membayar token input dan token output secara terpisah.

Tingkat	Input ($/1 juta)	Output ($/1 juta)
Standar	~$1.50	~$9.00
Input cache	diskon	t/a
Batch asinkron	~$0.75	~$4.50

Dua aturan praktis:

Token bukan kata. Perkiraan kasar: 1.000 token ≈ 750 kata bahasa Inggris.
Output jauh lebih mahal daripada input. Respons panjang akan menaikkan biaya lebih cepat daripada prompt panjang. Jika memungkinkan, gunakan output terstruktur seperti JSON agar model menulis lebih sedikit.

Rumus dasar:

biaya_input  = jumlah_request × token_input_per_request  × harga_input_per_1juta  / 1_000_000
biaya_output = jumlah_request × token_output_per_request × harga_output_per_1juta / 1_000_000
total        = biaya_input + biaya_output

Contoh JavaScript sederhana:

function estimateGeminiCost({
  requests,
  inputTokens,
  outputTokens,
  inputPrice = 1.5,
  outputPrice = 9.0,
}) {
  const inputCost = (requests * inputTokens * inputPrice) / 1_000_000;
  const outputCost = (requests * outputTokens * outputPrice) / 1_000_000;

  return {
    inputCost,
    outputCost,
    totalCost: inputCost + outputCost,
  };
}

console.log(
  estimateGeminiCost({
    requests: 10_000,
    inputTokens: 200,
    outputTokens: 400,
  })
);

Untuk latar belakang mode batch Gemini, lihat Mode batch API Gemini hadir dan 50% lebih murah.

Tingkat gratis: apa yang bisa Anda pakai tanpa membayar

Tingkat gratis AI Studio tersedia untuk Flash sejak hari pertama. Batas saat peluncuran:

1.500 permintaan per hari
1 juta token per menit
15 permintaan per menit

Ini cukup untuk:

proyek sampingan,
prototipe internal,
otomatisasi skala kecil,
pengujian integrasi awal.

Jika beban kerja Anda masih di bawah 1.500 panggilan per hari, biaya API Anda tetap $0.

Detail penting:

Tidak perlu kartu kredit.
Model gemini-3.5-flash sama dengan endpoint berbayar.
Pola SDK sama; yang berbeda hanya kunci dan kuota.
Prompt dapat digunakan untuk meningkatkan model Google, kecuali Anda keluar melalui pengaturan AI Studio.
Kuota dapat berubah, jadi jangan mendesain sistem produksi berdasarkan angka gratis saat peluncuran.

Panduan terkait:

Mode batch: diskon 50% untuk pekerjaan non-real-time

Jika aplikasi Anda tidak membutuhkan respons langsung, mode batch bisa memangkas biaya Flash sekitar 50%.

Alurnya:

Kumpulkan prompt dalam batch.
Kirim tugas batch, hingga 50.000 prompt sekaligus.
Google memprosesnya dalam waktu 24 jam.
Anda membayar sekitar 50% lebih rendah untuk token input dan output.

Gunakan mode batch untuk:

analisis dokumen massal,
triase tiket dukungan,
moderasi konten,
pembuatan konten semalam,
pemrosesan ulang data historis,
pipeline migrasi.

Jangan gunakan mode batch untuk:

UI chat interaktif,
agen yang harus merespons pengguna secara langsung,
fitur real-time yang menghadap pengguna.

Aturan implementasi praktis:

Jika user menunggu respons sekarang:
  gunakan endpoint standar

Jika job bisa selesai dalam beberapa jam:
  antrekan ke batch

Detail pengaturan tersedia di panduan mode batch.

Input cache: optimasi untuk prompt panjang yang berulang

Jika banyak request memakai awalan prompt yang sama, caching konteks bisa menurunkan biaya input.

Cocok untuk:

prompt sistem panjang,
dokumen referensi besar,
instruksi tetap,
konteks RAG yang sering muncul berulang.

Pola implementasi:

Cache dokumen referensi, misalnya 100 ribu token.
Gunakan kembali cache itu untuk ribuan kueri.
Bayar tarif penuh hanya untuk pertanyaan baru, bukan seluruh awalan yang sama.

Contoh pola prompt:

[CONTEXT YANG DI-CACHE]
- aturan internal
- dokumen referensi
- instruksi format output

[INPUT BARU]
Pertanyaan pengguna saat ini

Penghematan aktual bergantung pada tingkat hit cache. Untuk aplikasi gaya RAG yang sering memakai potongan konteks yang sama, pengurangan biaya input 30–60% masih masuk akal sebagai estimasi awal.

Skenario biaya dunia nyata

Berikut lima skenario dengan tarif standar Flash.

Skenario 1: chat bot dukungan pelanggan

Asumsi:

10.000 pesan pengguna per hari
200 token input rata-rata
400 token output rata-rata

Perhitungan:

Input  = 10.000 × 200 × ($1.50 / 1 juta) = $3.00/hari
Output = 10.000 × 400 × ($9.00 / 1 juta) = $36.00/hari
Total  = ~$39/hari = ~$1.170/bulan

Jika bisa diproses sebagai batch, biayanya turun menjadi sekitar $585/bulan. Jika prompt sistem panjang dan bisa di-cache, tambahkan potensi diskon 20–30% lagi.

Skenario 2: SaaS tanya jawab dokumen

Asumsi:

1.000 dokumen dianalisis per hari
setiap dokumen rata-rata 30 ribu token
setiap jawaban menghasilkan 500 token output

Perhitungan:

Input  = 1.000 × 30.000 × ($1.50 / 1 juta) = $45.00/hari
Output = 1.000 × 500 × ($9.00 / 1 juta) = $4.50/hari
Total  = ~$50/hari = ~$1.500/bulan

Konteks 1 juta token membuat pola ini sederhana: kirim dokumen utuh tanpa infrastruktur pemotongan yang kompleks. Dibandingkan RAG yang dipotong dengan model unggulan, biaya API dan infrastruktur bisa jauh lebih tinggi.

Skenario 3: agen otonom yang berjalan lama

Asumsi:

satu eksekusi agen = ~50 giliran model
setiap giliran rata-rata 5 ribu token input dan 1 ribu token output
200 eksekusi per hari

Biaya per eksekusi:

Input  = 50 × 5.000 × ($1.50 / 1 juta) = $0.375
Output = 50 × 1.000 × ($9.00 / 1 juta) = $0.45
Total  = ~$0.83 per eksekusi

Biaya harian:

200 × $0.83 = ~$165/hari = ~$4.950/bulan

Sebagai pembanding, beban kerja yang sama pada Opus 4.7 dengan estimasi ~$15/$75 per 1 juta token akan mendekati $25 per eksekusi, atau $5.000/hari.

Skenario 4: pipeline ekstraksi grafik

Asumsi:

5.000 screenshot dashboard per hari
setiap input gambar setara ~1.500 token
output berupa 300 token JSON terstruktur

Perhitungan:

Input  = 5.000 × 1.500 × ($1.50 / 1 juta) = $11.25/hari
Output = 5.000 × 300 × ($9.00 / 1 juta) = $13.50/hari
Total  = ~$25/hari = ~$750/bulan

Dengan mode batch, beban kerja yang sama turun ke sekitar $375/bulan. Penalaran CharXiv pada 84,2% berarti kualitasnya tetap terjaga.

Skenario 5: pembuatan konten bervolume tinggi

Asumsi:

100.000 artikel pendek per hari
500 token input per artikel
2.000 token output per artikel

Perhitungan:

Input  = 100.000 × 500 × ($1.50 / 1 juta) = $75/hari
Output = 100.000 × 2.000 × ($9.00 / 1 juta) = $1.800/hari
Total  = ~$1.875/hari = ~$56.250/bulan

Jika dipindahkan ke mode batch, tagihan bulanan turun menjadi sekitar $28K. Pada skala ini, uji juga routing tugas rutin ke model lebih murah seperti 3.1 Flash-Lite, lalu gunakan Flash untuk tugas yang lebih sulit.

Biaya vs GPT-5.5 dan Opus 4.7

Model	Input ($/1 juta)	Output ($/1 juta)	Kelipatan vs Flash
Gemini 3.5 Flash	~$1.50	~$9.00	1×
GPT-5.5	~$10	~$30	6,7× input, 3,3× output
Claude Opus 4.7	~$15	~$75	10× input, 8,3× output

Jika Skenario 1 dijalankan di masing-masing model:

Flash: $39/hari
GPT-5.5: ~$140/hari, sekitar 3,6× lebih mahal
Opus 4.7: ~$330/hari, sekitar 8,5× lebih mahal

Kesenjangan ini yang menjadi dasar klaim biaya Google. Model unggulan bisa lebih baik untuk tugas paling sulit, tetapi untuk banyak beban kerja harian, Flash cukup dengan biaya lebih rendah.

Referensi tambahan:

Biaya vs varian Gemini lainnya

Model	Input ($/1 juta)	Output ($/1 juta)	Kapan digunakan
Gemini 3.1 Flash-Lite	~$0.40	~$2.00	Pekerjaan rutin bervolume tinggi
Gemini 3 Flash	~$0.50	~$3.00	Generasi sebelumnya, masih solid
Gemini 3.1 Pro	~$2.00	~$12.00	Pekerjaan berat penalaran sebelum 3.5 Pro
Gemini 3.5 Flash	~$1.50	~$9.00	Default baru untuk sebagian besar beban kerja
Gemini 3.5 Pro, Juni 2026	Akan ditentukan	Akan ditentukan	Tugas penalaran tersulit

Flash lebih mahal daripada pendahulunya di lini 3.x Flash, tetapi lebih murah daripada tingkat Pro sebelumnya. Untuk banyak tim, ini adalah kompromi yang tepat: lebih kuat daripada Flash 3.x, lebih murah daripada Pro 3.x.

Referensi varian lama:

Harga Vertex AI untuk produksi

Jika Anda memanggil Flash melalui Vertex AI, harga per-token sama. Perbedaannya ada pada fitur akun dan operasional.

Vertex AI memberi Anda:

autentikasi akun layanan, bukan kunci API,
log audit di Cloud Logging,
kontrol residency data,
tidak ada tingkat gratis, tetapi akun baru mendapat kredit $300,
kuota khusus yang dapat dinegosiasikan pada skala besar.

Alur yang paling praktis:

Prototipe kecil:
  AI Studio gratis

Skala awal:
  AI Studio berbayar

Kebutuhan enterprise:
  Vertex AI

Perilaku model identik di ketiga opsi tersebut.

Tips optimasi biaya

Enam kebiasaan yang paling berdampak:

Pakai mode batch untuk pekerjaan non-real-time. Diskon sekitar 50% tanpa mengubah kualitas model.
Cache awalan prompt yang panjang. Prompt sistem, dokumen referensi, dan instruksi tetap adalah kandidat utama.
Gunakan output JSON terstruktur. Respons lebih pendek, lebih mudah divalidasi, dan lebih murah.
Route berdasarkan kompleksitas tugas. Tugas mudah ke Flash-Lite, tugas sulit ke Flash, dan tugas paling sulit ke 3.5 Pro saat tersedia.
Validasi input sebelum memanggil model. Jangan membakar token untuk request yang salah format. Apidog bisa membantu menangkap masalah ini sebelum request mencapai API.
Catat biaya per prompt. Simpan token input/output per request. Lonjakan biaya biasanya berasal dari sedikit prompt yang terlalu panjang atau menghasilkan output terlalu besar.

Contoh middleware logging sederhana:

function logGeminiUsage({ route, inputTokens, outputTokens }) {
  const inputCost = (inputTokens * 1.5) / 1_000_000;
  const outputCost = (outputTokens * 9.0) / 1_000_000;

  console.log({
    route,
    inputTokens,
    outputTokens,
    estimatedCost: inputCost + outputCost,
  });
}

Untuk alur validasi prompt, unduh Apidog, buat skenario pengujian untuk endpoint Gemini, lalu tambahkan asersi bentuk respons. Mengulang request rusak ratusan kali saat debug adalah cara cepat menghabiskan kuota gratis.

Ketika tingkat gratis tidak cukup

Tiga sinyal untuk pindah dari gratis ke berbayar:

Anda sering mencapai 1.500 request per hari. Biaya bayar-sesuai-pakai biasanya lebih murah daripada waktu engineering untuk menghindari kuota.
Anda butuh RPM lebih tinggi. Tingkat gratis dibatasi 15 request per menit.
Anda butuh residency data atau log audit. Gunakan Vertex AI dengan akun berbayar.

Banyak tim akhirnya memakai Flash berbayar di kisaran $50–200/bulan untuk menghindari juggling kuota gratis.

Risiko harga yang perlu dipantau

Tiga hal yang bisa mengubah estimasi:

Kuota gratis bisa diperketat. Jangan mendesain sistem produksi dengan asumsi 1.500 request/hari akan selalu tersedia.
Harga 3.5 Pro belum final. Saat 3.5 Pro diluncurkan pada Juni, posisi harga Flash bisa berubah.
Harga Vertex AI bisa berbeda per wilayah. US Central biasanya menjadi referensi termurah; beberapa wilayah bisa memiliki premi 10–20%.

Pasang alert biaya sejak awal:

AI Studio:
  pantau kuota proyek

Vertex AI:
  gunakan Cloud Billing budget dan alert harian

Intinya

Gemini 3.5 Flash cukup murah untuk menjadi titik awal sebagian besar beban kerja AI produksi pada 2026. Tarif standar $1.50 input / $9 output per 1 juta token lebih rendah daripada banyak opsi kelas canggih. Mode batch dan caching konteks bisa menurunkan biaya efektif lebih jauh.

Untuk beban kerja yang tidak cocok dengan Flash, jangan langsung memindahkan semuanya ke model mahal. Gunakan routing:

Flash untuk mayoritas request,
GPT-5.5 atau Opus 4.7 untuk tugas tersulit,
Flash-Lite untuk tugas rutin berbiaya rendah.

Langkah praktis:

Simpan endpoint Gemini 3.5 Flash sebagai request di Apidog.
Ambil 20 prompt nyata dari aplikasi Anda.
Bandingkan hasil Flash dengan model yang sekarang dipakai.
Catat token input dan output.
Ekstrapolasi biaya bulanan.
Putuskan request mana yang bisa dipindahkan ke Flash, batch, cache, atau model yang lebih murah.

Ini biasanya pekerjaan 1–2 hari, dan penghematannya bisa terlihat dalam satu siklus penagihan.

DEV Community

Harga Gemini 3.5 Flash: Berapa Biayanya?

Ringkasan cepat

Tarif per-token Gemini 3.5 Flash

Tingkat gratis: apa yang bisa Anda pakai tanpa membayar

Mode batch: diskon 50% untuk pekerjaan non-real-time

Input cache: optimasi untuk prompt panjang yang berulang

Skenario biaya dunia nyata

Skenario 1: chat bot dukungan pelanggan

Skenario 2: SaaS tanya jawab dokumen

Skenario 3: agen otonom yang berjalan lama

Skenario 4: pipeline ekstraksi grafik

Skenario 5: pembuatan konten bervolume tinggi

Biaya vs GPT-5.5 dan Opus 4.7

Biaya vs varian Gemini lainnya

Harga Vertex AI untuk produksi

Tips optimasi biaya

Ketika tingkat gratis tidak cukup

Risiko harga yang perlu dipantau

Intinya

Top comments (0)