Google merilis Gemini 3.5 Flash pada 19 Mei 2026, dengan klaim harga utama: “kurang dari setengah biaya model canggih lainnya” untuk tugas-tugas agensi. Artikel ini fokus pada cara menghitung biaya sebenarnya sebelum Anda menggunakannya di produksi.
Anda akan melihat tarif per-token, batas tingkat gratis, diskon mode batch, skenario biaya untuk beban kerja umum, dan perbandingan biaya dengan GPT-5.5 serta Claude Opus 4.7. Tujuannya sederhana: tahu berapa biaya menjalankan Flash, lalu memilih strategi untuk memangkas biaya tanpa menurunkan kualitas secara signifikan.
Ringkasan cepat
| Jenis biaya | Tarif |
|---|---|
| Input standar | ~$1.50 / 1 juta token |
| Output standar | ~$9.00 / 1 juta token |
| Input mode batch | ~$0.75 / 1 juta token (~diskon 50%) |
| Output mode batch | ~$4.50 / 1 juta token (~diskon 50%) |
| Input cache | tarif diskon, bervariasi |
| Tingkat gratis AI Studio | ~1.500 permintaan/hari, 1 juta token/menit, 15 RPM |
| Akun baru Vertex AI | Kredit $300 selama 90 hari |
Tarif berlaku mulai Mei 2026 berdasarkan pengumuman peluncuran Google dan daftar agregator. Sebelum membuat estimasi anggaran final, selalu cek halaman harga resmi.
Tarif per-token Gemini 3.5 Flash
Flash memakai model bayar-sesuai-pakai. Anda membayar token input dan token output secara terpisah.
| Tingkat | Input ($/1 juta) | Output ($/1 juta) |
|---|---|---|
| Standar | ~$1.50 | ~$9.00 |
| Input cache | diskon | t/a |
| Batch asinkron | ~$0.75 | ~$4.50 |
Dua aturan praktis:
- Token bukan kata. Perkiraan kasar: 1.000 token ≈ 750 kata bahasa Inggris.
- Output jauh lebih mahal daripada input. Respons panjang akan menaikkan biaya lebih cepat daripada prompt panjang. Jika memungkinkan, gunakan output terstruktur seperti JSON agar model menulis lebih sedikit.
Rumus dasar:
biaya_input = jumlah_request × token_input_per_request × harga_input_per_1juta / 1_000_000
biaya_output = jumlah_request × token_output_per_request × harga_output_per_1juta / 1_000_000
total = biaya_input + biaya_output
Contoh JavaScript sederhana:
function estimateGeminiCost({
requests,
inputTokens,
outputTokens,
inputPrice = 1.5,
outputPrice = 9.0,
}) {
const inputCost = (requests * inputTokens * inputPrice) / 1_000_000;
const outputCost = (requests * outputTokens * outputPrice) / 1_000_000;
return {
inputCost,
outputCost,
totalCost: inputCost + outputCost,
};
}
console.log(
estimateGeminiCost({
requests: 10_000,
inputTokens: 200,
outputTokens: 400,
})
);
Untuk latar belakang mode batch Gemini, lihat Mode batch API Gemini hadir dan 50% lebih murah.
Tingkat gratis: apa yang bisa Anda pakai tanpa membayar
Tingkat gratis AI Studio tersedia untuk Flash sejak hari pertama. Batas saat peluncuran:
- 1.500 permintaan per hari
- 1 juta token per menit
- 15 permintaan per menit
Ini cukup untuk:
- proyek sampingan,
- prototipe internal,
- otomatisasi skala kecil,
- pengujian integrasi awal.
Jika beban kerja Anda masih di bawah 1.500 panggilan per hari, biaya API Anda tetap $0.
Detail penting:
- Tidak perlu kartu kredit.
- Model
gemini-3.5-flashsama dengan endpoint berbayar. - Pola SDK sama; yang berbeda hanya kunci dan kuota.
- Prompt dapat digunakan untuk meningkatkan model Google, kecuali Anda keluar melalui pengaturan AI Studio.
- Kuota dapat berubah, jadi jangan mendesain sistem produksi berdasarkan angka gratis saat peluncuran.
Panduan terkait:
Mode batch: diskon 50% untuk pekerjaan non-real-time
Jika aplikasi Anda tidak membutuhkan respons langsung, mode batch bisa memangkas biaya Flash sekitar 50%.
Alurnya:
- Kumpulkan prompt dalam batch.
- Kirim tugas batch, hingga 50.000 prompt sekaligus.
- Google memprosesnya dalam waktu 24 jam.
- Anda membayar sekitar 50% lebih rendah untuk token input dan output.
Gunakan mode batch untuk:
- analisis dokumen massal,
- triase tiket dukungan,
- moderasi konten,
- pembuatan konten semalam,
- pemrosesan ulang data historis,
- pipeline migrasi.
Jangan gunakan mode batch untuk:
- UI chat interaktif,
- agen yang harus merespons pengguna secara langsung,
- fitur real-time yang menghadap pengguna.
Aturan implementasi praktis:
Jika user menunggu respons sekarang:
gunakan endpoint standar
Jika job bisa selesai dalam beberapa jam:
antrekan ke batch
Detail pengaturan tersedia di panduan mode batch.
Input cache: optimasi untuk prompt panjang yang berulang
Jika banyak request memakai awalan prompt yang sama, caching konteks bisa menurunkan biaya input.
Cocok untuk:
- prompt sistem panjang,
- dokumen referensi besar,
- instruksi tetap,
- konteks RAG yang sering muncul berulang.
Pola implementasi:
- Cache dokumen referensi, misalnya 100 ribu token.
- Gunakan kembali cache itu untuk ribuan kueri.
- Bayar tarif penuh hanya untuk pertanyaan baru, bukan seluruh awalan yang sama.
Contoh pola prompt:
[CONTEXT YANG DI-CACHE]
- aturan internal
- dokumen referensi
- instruksi format output
[INPUT BARU]
Pertanyaan pengguna saat ini
Penghematan aktual bergantung pada tingkat hit cache. Untuk aplikasi gaya RAG yang sering memakai potongan konteks yang sama, pengurangan biaya input 30–60% masih masuk akal sebagai estimasi awal.
Skenario biaya dunia nyata
Berikut lima skenario dengan tarif standar Flash.
Skenario 1: chat bot dukungan pelanggan
Asumsi:
- 10.000 pesan pengguna per hari
- 200 token input rata-rata
- 400 token output rata-rata
Perhitungan:
Input = 10.000 × 200 × ($1.50 / 1 juta) = $3.00/hari
Output = 10.000 × 400 × ($9.00 / 1 juta) = $36.00/hari
Total = ~$39/hari = ~$1.170/bulan
Jika bisa diproses sebagai batch, biayanya turun menjadi sekitar $585/bulan. Jika prompt sistem panjang dan bisa di-cache, tambahkan potensi diskon 20–30% lagi.
Skenario 2: SaaS tanya jawab dokumen
Asumsi:
- 1.000 dokumen dianalisis per hari
- setiap dokumen rata-rata 30 ribu token
- setiap jawaban menghasilkan 500 token output
Perhitungan:
Input = 1.000 × 30.000 × ($1.50 / 1 juta) = $45.00/hari
Output = 1.000 × 500 × ($9.00 / 1 juta) = $4.50/hari
Total = ~$50/hari = ~$1.500/bulan
Konteks 1 juta token membuat pola ini sederhana: kirim dokumen utuh tanpa infrastruktur pemotongan yang kompleks. Dibandingkan RAG yang dipotong dengan model unggulan, biaya API dan infrastruktur bisa jauh lebih tinggi.
Skenario 3: agen otonom yang berjalan lama
Asumsi:
- satu eksekusi agen = ~50 giliran model
- setiap giliran rata-rata 5 ribu token input dan 1 ribu token output
- 200 eksekusi per hari
Biaya per eksekusi:
Input = 50 × 5.000 × ($1.50 / 1 juta) = $0.375
Output = 50 × 1.000 × ($9.00 / 1 juta) = $0.45
Total = ~$0.83 per eksekusi
Biaya harian:
200 × $0.83 = ~$165/hari = ~$4.950/bulan
Sebagai pembanding, beban kerja yang sama pada Opus 4.7 dengan estimasi ~$15/$75 per 1 juta token akan mendekati $25 per eksekusi, atau $5.000/hari.
Skenario 4: pipeline ekstraksi grafik
Asumsi:
- 5.000 screenshot dashboard per hari
- setiap input gambar setara ~1.500 token
- output berupa 300 token JSON terstruktur
Perhitungan:
Input = 5.000 × 1.500 × ($1.50 / 1 juta) = $11.25/hari
Output = 5.000 × 300 × ($9.00 / 1 juta) = $13.50/hari
Total = ~$25/hari = ~$750/bulan
Dengan mode batch, beban kerja yang sama turun ke sekitar $375/bulan. Penalaran CharXiv pada 84,2% berarti kualitasnya tetap terjaga.
Skenario 5: pembuatan konten bervolume tinggi
Asumsi:
- 100.000 artikel pendek per hari
- 500 token input per artikel
- 2.000 token output per artikel
Perhitungan:
Input = 100.000 × 500 × ($1.50 / 1 juta) = $75/hari
Output = 100.000 × 2.000 × ($9.00 / 1 juta) = $1.800/hari
Total = ~$1.875/hari = ~$56.250/bulan
Jika dipindahkan ke mode batch, tagihan bulanan turun menjadi sekitar $28K. Pada skala ini, uji juga routing tugas rutin ke model lebih murah seperti 3.1 Flash-Lite, lalu gunakan Flash untuk tugas yang lebih sulit.
Biaya vs GPT-5.5 dan Opus 4.7
| Model | Input ($/1 juta) | Output ($/1 juta) | Kelipatan vs Flash |
|---|---|---|---|
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1× |
| GPT-5.5 | ~$10 | ~$30 | 6,7× input, 3,3× output |
| Claude Opus 4.7 | ~$15 | ~$75 | 10× input, 8,3× output |
Jika Skenario 1 dijalankan di masing-masing model:
- Flash: $39/hari
- GPT-5.5: ~$140/hari, sekitar 3,6× lebih mahal
- Opus 4.7: ~$330/hari, sekitar 8,5× lebih mahal
Kesenjangan ini yang menjadi dasar klaim biaya Google. Model unggulan bisa lebih baik untuk tugas paling sulit, tetapi untuk banyak beban kerja harian, Flash cukup dengan biaya lebih rendah.
Referensi tambahan:
Biaya vs varian Gemini lainnya
| Model | Input ($/1 juta) | Output ($/1 juta) | Kapan digunakan |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | ~$0.40 | ~$2.00 | Pekerjaan rutin bervolume tinggi |
| Gemini 3 Flash | ~$0.50 | ~$3.00 | Generasi sebelumnya, masih solid |
| Gemini 3.1 Pro | ~$2.00 | ~$12.00 | Pekerjaan berat penalaran sebelum 3.5 Pro |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | Default baru untuk sebagian besar beban kerja |
| Gemini 3.5 Pro, Juni 2026 | Akan ditentukan | Akan ditentukan | Tugas penalaran tersulit |
Flash lebih mahal daripada pendahulunya di lini 3.x Flash, tetapi lebih murah daripada tingkat Pro sebelumnya. Untuk banyak tim, ini adalah kompromi yang tepat: lebih kuat daripada Flash 3.x, lebih murah daripada Pro 3.x.
Referensi varian lama:
Harga Vertex AI untuk produksi
Jika Anda memanggil Flash melalui Vertex AI, harga per-token sama. Perbedaannya ada pada fitur akun dan operasional.
Vertex AI memberi Anda:
- autentikasi akun layanan, bukan kunci API,
- log audit di Cloud Logging,
- kontrol residency data,
- tidak ada tingkat gratis, tetapi akun baru mendapat kredit $300,
- kuota khusus yang dapat dinegosiasikan pada skala besar.
Alur yang paling praktis:
Prototipe kecil:
AI Studio gratis
Skala awal:
AI Studio berbayar
Kebutuhan enterprise:
Vertex AI
Perilaku model identik di ketiga opsi tersebut.
Tips optimasi biaya
Enam kebiasaan yang paling berdampak:
- Pakai mode batch untuk pekerjaan non-real-time. Diskon sekitar 50% tanpa mengubah kualitas model.
- Cache awalan prompt yang panjang. Prompt sistem, dokumen referensi, dan instruksi tetap adalah kandidat utama.
- Gunakan output JSON terstruktur. Respons lebih pendek, lebih mudah divalidasi, dan lebih murah.
- Route berdasarkan kompleksitas tugas. Tugas mudah ke Flash-Lite, tugas sulit ke Flash, dan tugas paling sulit ke 3.5 Pro saat tersedia.
- Validasi input sebelum memanggil model. Jangan membakar token untuk request yang salah format. Apidog bisa membantu menangkap masalah ini sebelum request mencapai API.
- Catat biaya per prompt. Simpan token input/output per request. Lonjakan biaya biasanya berasal dari sedikit prompt yang terlalu panjang atau menghasilkan output terlalu besar.
Contoh middleware logging sederhana:
function logGeminiUsage({ route, inputTokens, outputTokens }) {
const inputCost = (inputTokens * 1.5) / 1_000_000;
const outputCost = (outputTokens * 9.0) / 1_000_000;
console.log({
route,
inputTokens,
outputTokens,
estimatedCost: inputCost + outputCost,
});
}
Untuk alur validasi prompt, unduh Apidog, buat skenario pengujian untuk endpoint Gemini, lalu tambahkan asersi bentuk respons. Mengulang request rusak ratusan kali saat debug adalah cara cepat menghabiskan kuota gratis.
Ketika tingkat gratis tidak cukup
Tiga sinyal untuk pindah dari gratis ke berbayar:
- Anda sering mencapai 1.500 request per hari. Biaya bayar-sesuai-pakai biasanya lebih murah daripada waktu engineering untuk menghindari kuota.
- Anda butuh RPM lebih tinggi. Tingkat gratis dibatasi 15 request per menit.
- Anda butuh residency data atau log audit. Gunakan Vertex AI dengan akun berbayar.
Banyak tim akhirnya memakai Flash berbayar di kisaran $50–200/bulan untuk menghindari juggling kuota gratis.
Risiko harga yang perlu dipantau
Tiga hal yang bisa mengubah estimasi:
- Kuota gratis bisa diperketat. Jangan mendesain sistem produksi dengan asumsi 1.500 request/hari akan selalu tersedia.
- Harga 3.5 Pro belum final. Saat 3.5 Pro diluncurkan pada Juni, posisi harga Flash bisa berubah.
- Harga Vertex AI bisa berbeda per wilayah. US Central biasanya menjadi referensi termurah; beberapa wilayah bisa memiliki premi 10–20%.
Pasang alert biaya sejak awal:
AI Studio:
pantau kuota proyek
Vertex AI:
gunakan Cloud Billing budget dan alert harian
Intinya
Gemini 3.5 Flash cukup murah untuk menjadi titik awal sebagian besar beban kerja AI produksi pada 2026. Tarif standar $1.50 input / $9 output per 1 juta token lebih rendah daripada banyak opsi kelas canggih. Mode batch dan caching konteks bisa menurunkan biaya efektif lebih jauh.
Untuk beban kerja yang tidak cocok dengan Flash, jangan langsung memindahkan semuanya ke model mahal. Gunakan routing:
- Flash untuk mayoritas request,
- GPT-5.5 atau Opus 4.7 untuk tugas tersulit,
- Flash-Lite untuk tugas rutin berbiaya rendah.
Langkah praktis:
- Simpan endpoint Gemini 3.5 Flash sebagai request di Apidog.
- Ambil 20 prompt nyata dari aplikasi Anda.
- Bandingkan hasil Flash dengan model yang sekarang dipakai.
- Catat token input dan output.
- Ekstrapolasi biaya bulanan.
- Putuskan request mana yang bisa dipindahkan ke Flash, batch, cache, atau model yang lebih murah.
Ini biasanya pekerjaan 1–2 hari, dan penghematannya bisa terlihat dalam satu siklus penagihan.

Top comments (0)