Google merilis Gemini 3.5 Flash pada 19 Mei 2026. Ini adalah varian cepat dan berbiaya rendah dari keluarga Gemini 3.5, sekaligus satu-satunya model 3.5 yang bisa digunakan saat peluncuran. Gemini 3.5 Pro diumumkan untuk Juni 2026, tetapi untuk workload produksi hari ini, Flash adalah model yang relevan untuk diuji lebih dulu.
Flash dirancang untuk workload yang umum di aplikasi AI modern: agent loop panjang, otomatisasi terminal, coding multi-file, analisis dokumen multimodal, dan chat streaming. Google mengklaim model ini berjalan sekitar 4x lebih cepat dalam token output dibanding model mutakhir lain, dengan biaya kurang dari setengah biaya per tugas untuk workload agenik.
Artikel ini membahas apa itu Gemini 3.5 Flash, apa yang baru, benchmark utama, cara mengaksesnya, dan cara mengujinya dalam stack API Anda, termasuk dengan Apidog untuk validasi endpoint AI.
Fakta Singkat tentang Gemini 3.5 Flash
| Area | Detail |
|---|---|
| Tanggal rilis | 19 Mei 2026 |
| Varian | Gemini 3.5 Flash, dengan Pro diumumkan untuk Juni 2026 |
| Context window | 1M token input, 64K token output |
| Modalitas | Teks, gambar, kode, pembuatan grafik |
| Benchmark utama | 76,2% Terminal-Bench 2.1, 84,2% CharXiv Reasoning, 83,6% MCP Atlas, 1656 Elo GDPval-AA |
| Kecepatan | Sekitar 4x lebih cepat dalam token output/detik dibanding model mutakhir lain |
| Biaya | Kurang dari setengah biaya model mutakhir sebanding untuk tugas agenik |
| Nama API | gemini-3.5-flash |
| Akses | Aplikasi Gemini, Mode AI di Search, Google Antigravity, API Gemini, AI Studio, Android Studio, Gemini Enterprise |
Untuk rincian harga lengkap, termasuk batas tingkat gratis dan skenario biaya nyata, lihat panduan harga Gemini 3.5 Flash.
Apa yang Baru di Gemini 3.5 Flash Dibanding 3 dan 3.1
Gemini 3.5 Flash melanjutkan lini Gemini 3 Flash dan Gemini 3.1 Pro, dengan lima peningkatan utama.
1. Eksekusi agenik lebih stabil
Flash lebih cocok untuk rantai tugas panjang. Model dapat menjalankan urutan tool call dengan lebih konsisten dan mendukung pengiriman subagen sebagai kemampuan utama, bukan workaround.
Contoh workload yang cocok:
- agen riset web multi-langkah
- otomatisasi CLI
- workflow analisis dokumen
- pipeline dengan beberapa tool eksternal
2. Output coding lebih kuat untuk multi-file
Flash lebih relevan untuk refactor multi-file, kerja berbasis CLI, dan perubahan kode yang membutuhkan konteks panjang.
Contoh prompt praktis:
Anda adalah coding agent. Analisis struktur project ini, temukan file yang perlu diubah,
lalu buat rencana refactor bertahap sebelum menulis patch.
Target:
- pisahkan layer service dan repository
- pertahankan public API
- tambahkan test untuk path utama
3. Pembuatan grafik lebih berguna
Flash dapat menghasilkan UI web interaktif, SVG, dan diagram inline langsung dari model. Ini berguna jika Anda ingin membuat dashboard, visualisasi data sederhana, atau diagram arsitektur tanpa merutekan tugas ke model gambar terpisah.
4. Streaming output terasa lebih cepat
Klaim Google tentang peningkatan sekitar 4x token/detik berdampak langsung pada UX streaming. Jika aplikasi Anda menampilkan output token-by-token, Flash dapat membuat respons terasa jauh lebih responsif.
5. Batas pengaman diperluas
Google menyebut peningkatan pada pengamanan siber dan CBRN, serta alat interpretasi untuk menjelaskan alasan model menolak atau merutekan ulang permintaan.
Polanya jelas: Flash dioptimalkan untuk workload agen produksi, bukan hanya chat. Arah ini mirip dengan pendekatan model lain seperti GPT-5.5 dan Claude Opus 4.7.
Benchmark Gemini 3.5 Flash
Berikut angka dari tabel yang dipublikasikan Google:
| Benchmark | Yang diuji | Gemini 3.5 Flash |
|---|---|---|
| Terminal-Bench 2.1 | Workflow CLI jangka panjang | 76,2% |
| MCP Atlas | Koordinasi multi-tool | 83,6% |
| CharXiv Reasoning | Interpretasi bagan dan diagram | 84,2% |
| GDPval-AA | Nilai agenik umum | 1656 Elo |
| MRCR v2, konteks 1M | Pengambilan konteks panjang | Teratas di tabel Google |
Interpretasi praktisnya:
- Gunakan Flash untuk penalaran grafik, multi-tool agent, dan konteks panjang.
- Jangan hanya menilai dari single-shot bug fixing.
- Untuk SWE-Bench Verified murni, Opus 4.7 dan GPT-5.5 masih menjadi pembanding kuat.
- Jika metrik utama Anda adalah biaya per agent run panjang, Flash lebih menarik.
Untuk perbandingan tiga arah, lihat Gemini 3.5 Flash vs GPT-5.5 vs Opus 4.7.
Keluarga Model Gemini 3.5
Gemini 3.5 Flash
Flash tersedia melalui AI Studio, API Gemini, aplikasi Gemini, Mode AI di Search, Antigravity, Android Studio, dan Gemini Enterprise.
Harga yang dilaporkan saat peluncuran sekitar:
Input : ~$1,50 / 1 juta token
Output: ~$9,00 / 1 juta token
Harga ini lebih tinggi dari 3.1 Flash-Lite, tetapi tetap lebih murah dibanding pesaing tingkat Pro. Untuk batch mode, cached input, dan tarif Vertex, lihat panduan harga lengkap.
Flash paling cocok untuk:
- agent loop panjang
- analisis dokumen dan bagan
- endpoint AI dengan kebutuhan latensi rendah
- skrip pengujian Apidog
- UI chat streaming
- analisis dokumen hingga 1M token tanpa pemotongan agresif
Gemini 3.5 Pro
Gemini 3.5 Pro diumumkan, tetapi belum tersedia saat Flash diluncurkan. Google memosisikannya sebagai model unggulan untuk workload agenik yang lebih berat, seperti riset mendalam, tugas otonom multi-jam, dan benchmark leaderboard.
Sampai Pro tersedia, Flash adalah model 3.5 yang bisa langsung Anda pakai.
Bagaimana dengan Nano?
Google tidak merilis varian 3.5 Nano. Inferensi di perangkat masih berjalan pada lini 3.1 Flash-Lite. Pengumuman 3.5 Nano kemungkinan akan lebih relevan mendekati siklus Pixel berikutnya.
Di Mana Anda Dapat Menggunakan Gemini 3.5 Flash
Enam permukaan utama tersedia saat peluncuran:
- Aplikasi Gemini untuk chat, riset, penulisan, dan analisis gambar.
- Mode AI di Google Search untuk jawaban dan follow-up.
- Google Antigravity untuk otomatisasi agen.
- API Gemini melalui AI Studio.
- Android Studio untuk bantuan coding Android.
- Gemini Enterprise + Agent Platform untuk runtime agen terkelola.
Permukaan baru lain adalah Gemini Spark, agen pribadi yang berjalan 24/7 di akun Anda. Spark menggunakan Flash di balik layar dan terhubung ke konteks Gmail, Kalender, dan Drive.
Agen informasi di dalam Search juga baru. Ia bertindak sebagai pembantu otonom kecil yang mengumpulkan pembaruan tentang topik yang Anda ikuti tanpa perlu menanyakan ulang.
Cara Mulai Menggunakan Gemini 3.5 Flash
Ada empat jalur utama. Pilih berdasarkan kebutuhan Anda.
1. Aplikasi Gemini untuk chat
Buka gemini.google.com, pilih model “3.5 Flash”, lalu mulai gunakan untuk:
- riset cepat
- drafting dokumen
- analisis gambar
- eksplorasi kode
- pembuatan ringkasan
Ini jalur tercepat jika Anda belum perlu integrasi API.
2. Google AI Studio untuk developer
Kunjungi ai.google.dev, login, lalu buat API key. Saat peluncuran, Flash tersedia di tingkat gratis dengan sekitar 1.500 request per hari.
Jika Anda pernah memakai API Gemini Google, polanya sama:
- Buat API key.
- Simpan sebagai environment variable.
- Gunakan model
gemini-3.5-flash. - Kirim request.
- Uji respons dan biaya token.
Contoh environment variable:
export GEMINI_API_KEY="YOUR_API_KEY"
Lihat juga panduan kunci API Gemini gratis dan panduan gratis khusus Flash.
3. API Gemini untuk produksi
Untuk produksi, gunakan endpoint API dengan akun berbayar. Nama model yang perlu Anda pakai:
gemini-3.5-flash
Contoh struktur request REST sederhana:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [
{
"parts": [
{
"text": "Ringkas dokumen teknis ini menjadi checklist implementasi."
}
]
}
]
}'
Untuk contoh lengkap Python, Node, curl, streaming, tool use, dan multimodal, lihat Cara Menggunakan API Gemini 3.5 Flash.
Saat menghubungkan Flash ke stack Anda, uji endpoint dengan benar. Apidog dapat digunakan untuk menguji request/response REST dan streaming dalam satu workspace, termasuk payload multimodal dan tool call.
4. Gemini Enterprise untuk organisasi
Untuk organisasi besar, Gemini Enterprise Agent Platform menyediakan Flash dengan log audit, residensi data, dan runtime Agent Platform. Jalur ini cocok setelah prototipe API sudah stabil dan perlu governance organisasi.
Workload yang Cocok untuk Gemini 3.5 Flash
Agent loop panjang dengan biaya rendah
Gunakan Flash jika aplikasi Anda melakukan banyak langkah seperti:
- membaca konteks
- memilih tool
- menjalankan tool
- memeriksa output
- memperbaiki langkah
- mengulang sampai selesai
Skor MCP Atlas 83,6% menunjukkan kemampuan koordinasi multi-tool yang kuat.
Penalaran bagan dan dokumen
CharXiv 84,2% berarti Flash lebih berguna untuk laporan, PDF, diagram, chart, dan dokumen bisnis yang mengandung visual.
Contoh prompt:
Analisis gambar laporan ini.
Kembalikan:
1. metrik utama
2. tren yang terlihat
3. anomali
4. rekomendasi tindakan
5. tabel ringkasan dalam Markdown
Pembuatan UI interaktif
Flash dapat menghasilkan HTML, widget, dan visualisasi yang lebih langsung dapat diuji.
Contoh prompt:
Buat dashboard HTML sederhana untuk metrik API berikut:
- request per menit
- p95 latency
- error rate
- token usage
Gunakan HTML, CSS, dan JavaScript vanilla.
Buat grafik interaktif tanpa library eksternal.
Workload produksi yang sensitif biaya
Google membingkai Flash sebagai model dengan biaya kurang dari setengah model mutakhir lain untuk tugas agenik. Bahkan setelah memperhitungkan faktor pemasaran, biaya per tugas untuk agent run panjang bisa lebih menarik dibanding Opus 4.7 atau GPT-5.5. Rinciannya ada di rincian harga.
Batasan yang Perlu Diperhatikan
Gemini 3.5 Flash bukan solusi untuk semua kasus.
- SWE-Bench Verified murni: Opus 4.7 dengan 87,6% masih memimpin pada benchmark perbaikan bug terisolasi.
- Suara: Stack suara Gemini terpisah. Untuk workload ini, bandingkan dengan Grok Voice vs GPT-Realtime.
- Ekosistem tool: OpenAI dan Anthropic masih lebih matang dalam adaptor pihak ketiga. Google mengejar melalui Antigravity, tetapi ekosistemnya lebih muda.
Cara Menguji Gemini 3.5 Flash Sebelum Produksi
Saat membawa model baru ke produksi, jangan hanya menjalankan beberapa prompt manual. Uji minimal dua hal:
- stabilitas bentuk respons
- kebenaran tool call
Buat evaluation harness kecil:
1. Kumpulkan 20-100 prompt nyata dari aplikasi Anda.
2. Jalankan prompt terhadap model lama dan gemini-3.5-flash.
3. Catat latency, token input, token output, dan biaya.
4. Validasi output terhadap schema.
5. Jalankan test downstream.
6. Bandingkan failure rate.
7. Putuskan routing traffic secara bertahap.
Contoh checklist evaluasi:
| Metrik | Yang dicek |
|---|---|
| Latency | Waktu sampai token pertama dan total waktu respons |
| Biaya | Total input/output token per tugas |
| Validitas schema | Apakah JSON/tool call valid |
| Task success | Apakah tugas downstream berhasil |
| Safety behavior | Apakah refusal berubah dari model lama |
| Streaming UX | Apakah UI bisa merender output cukup cepat |
Untuk langkah 1 dan 3, Apidog dapat menyimpan suite pengujian endpoint Flash, termasuk streaming. Anda bisa memutar ulang prompt yang sama di berbagai versi model dan membandingkan output. Unduh Apidog jika ingin menjalankannya secara lokal.
Tips Migrasi dari Gemini 3.1 ke 3.5 Flash
Jika Anda sudah memakai Gemini 3.1, migrasi biasanya berupa perubahan satu string model.
Contoh:
- model: "gemini-3.1-flash"
+ model: "gemini-3.5-flash"
Namun tetap cek detail berikut:
- Token budget tetap besar: 1M input dan 64K output.
- Tool schema tetap stabil: definisi fungsi yang ada seharusnya tetap bisa digunakan.
- Output lebih cepat: UI streaming mungkin perlu throttling jika render terlalu lambat.
- Harga berubah: hitung ulang proyeksi biaya dengan panduan harga Flash.
- Respons keamanan lebih ketat: jalankan ulang red-team evaluation Anda.
Untuk pola SDK yang lebih detail, lihat panduan API Google Gemini 3.
FAQ
Kapan Gemini 3.5 Pro tersedia?
Google mengumumkan “diluncurkan bulan depan” pada 19 Mei 2026. Artinya, ketersediaan umum diperkirakan pada Juni 2026 di AI Studio, API Gemini, dan Gemini Enterprise. Sampai saat itu, Flash adalah satu-satunya varian 3.5 yang dapat digunakan.
Apakah Gemini 3.5 Flash gratis digunakan?
Ya, dengan kuota harian. Aplikasi Gemini standar dan AI Studio dengan API key menyediakan akses Flash tanpa pembayaran. Lihat panduan gratis Flash dan Dapatkan API Gemini Tanpa Batas Gratis.
Apakah Gemini 3.5 Flash mendukung function calling?
Ya. Tool calling dan pengiriman subagen adalah kemampuan utama. Skor MCP Atlas 83,6% menjadi indikator kuat untuk koordinasi multi-tool.
Bagaimana Flash dibandingkan dengan Opus 4.7 dan GPT-5.5?
Flash unggul dalam biaya, kecepatan output, dan penalaran grafik. Opus 4.7 masih sedikit lebih unggul untuk SWE-Bench Pro dan penulisan bentuk panjang. GPT-5.5 kuat dalam efisiensi token. Lihat perbandingan tiga arah.
Bisakah saya menjalankan Gemini 3.5 Flash secara lokal?
Tidak. Tidak ada rilis open-weights. Untuk inferensi lokal, lihat LLM lokal terbaik tahun 2026.
Apakah Gemini 3.5 Flash berfungsi dengan Cursor?
Ya, melalui API Gemini standar. Polanya sama dengan Gemini 3.0 Pro dengan Cursor.
Apa nama model API untuk Flash?
Gunakan:
gemini-3.5-flash
Pakai string ini di SDK atau endpoint REST Anda.
Dampaknya untuk Stack Anda
Jika Anda menjalankan fitur AI di produksi, gunakan pendekatan berikut:
- Sudah memakai 3.1 Flash? Jalankan A/B test dengan 3.5 Flash minggu ini. Peningkatan output streaming saja bisa cukup untuk meningkatkan UX.
- Sudah memakai Opus 4.7 atau GPT-5.5? Bandingkan biaya dan kualitas. Untuk workload agenik panjang, Flash bisa layak menerima sebagian traffic.
- Membangun agent loop baru? Mulai dari Flash karena biaya dan performanya cocok untuk iterasi.
- Workload multimodal berat? Uji sekarang, terutama jika Anda memproses chart, diagram, atau PDF visual.
Model tetap hanya satu komponen dalam pipeline. Anda masih perlu desain prompt, tool wiring, evaluasi, logging, dan regression test. Apidog dapat menangani sisi pengujian API Gemini, sementara logic agent dan evaluasi kualitas tetap perlu Anda desain sendiri.



Top comments (0)