Walse

Posted on May 20 • Originally published at apidog.com

Gemini 3.5 Flash: Model Frontier Cepat Terbaru dari Google

Google merilis Gemini 3.5 Flash pada 19 Mei 2026. Ini adalah varian cepat dan berbiaya rendah dari keluarga Gemini 3.5, sekaligus satu-satunya model 3.5 yang bisa digunakan saat peluncuran. Gemini 3.5 Pro diumumkan untuk Juni 2026, tetapi untuk workload produksi hari ini, Flash adalah model yang relevan untuk diuji lebih dulu.

Coba Apidog hari ini

Flash dirancang untuk workload yang umum di aplikasi AI modern: agent loop panjang, otomatisasi terminal, coding multi-file, analisis dokumen multimodal, dan chat streaming. Google mengklaim model ini berjalan sekitar 4x lebih cepat dalam token output dibanding model mutakhir lain, dengan biaya kurang dari setengah biaya per tugas untuk workload agenik.

Artikel ini membahas apa itu Gemini 3.5 Flash, apa yang baru, benchmark utama, cara mengaksesnya, dan cara mengujinya dalam stack API Anda, termasuk dengan Apidog untuk validasi endpoint AI.

Fakta Singkat tentang Gemini 3.5 Flash

Area	Detail
Tanggal rilis	19 Mei 2026
Varian	Gemini 3.5 Flash, dengan Pro diumumkan untuk Juni 2026
Context window	1M token input, 64K token output
Modalitas	Teks, gambar, kode, pembuatan grafik
Benchmark utama	76,2% Terminal-Bench 2.1, 84,2% CharXiv Reasoning, 83,6% MCP Atlas, 1656 Elo GDPval-AA
Kecepatan	Sekitar 4x lebih cepat dalam token output/detik dibanding model mutakhir lain
Biaya	Kurang dari setengah biaya model mutakhir sebanding untuk tugas agenik
Nama API	`gemini-3.5-flash`
Akses	Aplikasi Gemini, Mode AI di Search, Google Antigravity, API Gemini, AI Studio, Android Studio, Gemini Enterprise

Untuk rincian harga lengkap, termasuk batas tingkat gratis dan skenario biaya nyata, lihat panduan harga Gemini 3.5 Flash.

Apa yang Baru di Gemini 3.5 Flash Dibanding 3 dan 3.1

Gemini 3.5 Flash melanjutkan lini Gemini 3 Flash dan Gemini 3.1 Pro, dengan lima peningkatan utama.

1. Eksekusi agenik lebih stabil

Flash lebih cocok untuk rantai tugas panjang. Model dapat menjalankan urutan tool call dengan lebih konsisten dan mendukung pengiriman subagen sebagai kemampuan utama, bukan workaround.

Contoh workload yang cocok:

agen riset web multi-langkah
otomatisasi CLI
workflow analisis dokumen
pipeline dengan beberapa tool eksternal

2. Output coding lebih kuat untuk multi-file

Flash lebih relevan untuk refactor multi-file, kerja berbasis CLI, dan perubahan kode yang membutuhkan konteks panjang.

Contoh prompt praktis:

Anda adalah coding agent. Analisis struktur project ini, temukan file yang perlu diubah,
lalu buat rencana refactor bertahap sebelum menulis patch.

Target:
- pisahkan layer service dan repository
- pertahankan public API
- tambahkan test untuk path utama

3. Pembuatan grafik lebih berguna

Flash dapat menghasilkan UI web interaktif, SVG, dan diagram inline langsung dari model. Ini berguna jika Anda ingin membuat dashboard, visualisasi data sederhana, atau diagram arsitektur tanpa merutekan tugas ke model gambar terpisah.

4. Streaming output terasa lebih cepat

Klaim Google tentang peningkatan sekitar 4x token/detik berdampak langsung pada UX streaming. Jika aplikasi Anda menampilkan output token-by-token, Flash dapat membuat respons terasa jauh lebih responsif.

5. Batas pengaman diperluas

Google menyebut peningkatan pada pengamanan siber dan CBRN, serta alat interpretasi untuk menjelaskan alasan model menolak atau merutekan ulang permintaan.

Polanya jelas: Flash dioptimalkan untuk workload agen produksi, bukan hanya chat. Arah ini mirip dengan pendekatan model lain seperti GPT-5.5 dan Claude Opus 4.7.

Benchmark Gemini 3.5 Flash

Berikut angka dari tabel yang dipublikasikan Google:

Benchmark	Yang diuji	Gemini 3.5 Flash
Terminal-Bench 2.1	Workflow CLI jangka panjang	76,2%
MCP Atlas	Koordinasi multi-tool	83,6%
CharXiv Reasoning	Interpretasi bagan dan diagram	84,2%
GDPval-AA	Nilai agenik umum	1656 Elo
MRCR v2, konteks 1M	Pengambilan konteks panjang	Teratas di tabel Google

Interpretasi praktisnya:

Gunakan Flash untuk penalaran grafik, multi-tool agent, dan konteks panjang.
Jangan hanya menilai dari single-shot bug fixing.
Untuk SWE-Bench Verified murni, Opus 4.7 dan GPT-5.5 masih menjadi pembanding kuat.
Jika metrik utama Anda adalah biaya per agent run panjang, Flash lebih menarik.

Untuk perbandingan tiga arah, lihat Gemini 3.5 Flash vs GPT-5.5 vs Opus 4.7.

Keluarga Model Gemini 3.5

Gemini 3.5 Flash

Flash tersedia melalui AI Studio, API Gemini, aplikasi Gemini, Mode AI di Search, Antigravity, Android Studio, dan Gemini Enterprise.

Harga yang dilaporkan saat peluncuran sekitar:

Input : ~$1,50 / 1 juta token
Output: ~$9,00 / 1 juta token

Harga ini lebih tinggi dari 3.1 Flash-Lite, tetapi tetap lebih murah dibanding pesaing tingkat Pro. Untuk batch mode, cached input, dan tarif Vertex, lihat panduan harga lengkap.

Flash paling cocok untuk:

agent loop panjang
analisis dokumen dan bagan
endpoint AI dengan kebutuhan latensi rendah
skrip pengujian Apidog
UI chat streaming
analisis dokumen hingga 1M token tanpa pemotongan agresif

Gemini 3.5 Pro

Gemini 3.5 Pro diumumkan, tetapi belum tersedia saat Flash diluncurkan. Google memosisikannya sebagai model unggulan untuk workload agenik yang lebih berat, seperti riset mendalam, tugas otonom multi-jam, dan benchmark leaderboard.

Sampai Pro tersedia, Flash adalah model 3.5 yang bisa langsung Anda pakai.

Bagaimana dengan Nano?

Google tidak merilis varian 3.5 Nano. Inferensi di perangkat masih berjalan pada lini 3.1 Flash-Lite. Pengumuman 3.5 Nano kemungkinan akan lebih relevan mendekati siklus Pixel berikutnya.

Di Mana Anda Dapat Menggunakan Gemini 3.5 Flash

Enam permukaan utama tersedia saat peluncuran:

Aplikasi Gemini untuk chat, riset, penulisan, dan analisis gambar.
Mode AI di Google Search untuk jawaban dan follow-up.
Google Antigravity untuk otomatisasi agen.
API Gemini melalui AI Studio.
Android Studio untuk bantuan coding Android.
Gemini Enterprise + Agent Platform untuk runtime agen terkelola.

Permukaan baru lain adalah Gemini Spark, agen pribadi yang berjalan 24/7 di akun Anda. Spark menggunakan Flash di balik layar dan terhubung ke konteks Gmail, Kalender, dan Drive.

Agen informasi di dalam Search juga baru. Ia bertindak sebagai pembantu otonom kecil yang mengumpulkan pembaruan tentang topik yang Anda ikuti tanpa perlu menanyakan ulang.

Cara Mulai Menggunakan Gemini 3.5 Flash

Ada empat jalur utama. Pilih berdasarkan kebutuhan Anda.

1. Aplikasi Gemini untuk chat

Buka gemini.google.com, pilih model “3.5 Flash”, lalu mulai gunakan untuk:

riset cepat
drafting dokumen
analisis gambar
eksplorasi kode
pembuatan ringkasan

Ini jalur tercepat jika Anda belum perlu integrasi API.

2. Google AI Studio untuk developer

Kunjungi ai.google.dev, login, lalu buat API key. Saat peluncuran, Flash tersedia di tingkat gratis dengan sekitar 1.500 request per hari.

Jika Anda pernah memakai API Gemini Google, polanya sama:

Buat API key.
Simpan sebagai environment variable.
Gunakan model gemini-3.5-flash.
Kirim request.
Uji respons dan biaya token.

Contoh environment variable:

export GEMINI_API_KEY="YOUR_API_KEY"

Lihat juga panduan kunci API Gemini gratis dan panduan gratis khusus Flash.

3. API Gemini untuk produksi

Untuk produksi, gunakan endpoint API dengan akun berbayar. Nama model yang perlu Anda pakai:

gemini-3.5-flash

Contoh struktur request REST sederhana:

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Ringkas dokumen teknis ini menjadi checklist implementasi."
          }
        ]
      }
    ]
  }'

Untuk contoh lengkap Python, Node, curl, streaming, tool use, dan multimodal, lihat Cara Menggunakan API Gemini 3.5 Flash.

Saat menghubungkan Flash ke stack Anda, uji endpoint dengan benar. Apidog dapat digunakan untuk menguji request/response REST dan streaming dalam satu workspace, termasuk payload multimodal dan tool call.

4. Gemini Enterprise untuk organisasi

Untuk organisasi besar, Gemini Enterprise Agent Platform menyediakan Flash dengan log audit, residensi data, dan runtime Agent Platform. Jalur ini cocok setelah prototipe API sudah stabil dan perlu governance organisasi.

Workload yang Cocok untuk Gemini 3.5 Flash

Agent loop panjang dengan biaya rendah

Gunakan Flash jika aplikasi Anda melakukan banyak langkah seperti:

membaca konteks
memilih tool
menjalankan tool
memeriksa output
memperbaiki langkah
mengulang sampai selesai

Skor MCP Atlas 83,6% menunjukkan kemampuan koordinasi multi-tool yang kuat.

Penalaran bagan dan dokumen

CharXiv 84,2% berarti Flash lebih berguna untuk laporan, PDF, diagram, chart, dan dokumen bisnis yang mengandung visual.

Contoh prompt:

Analisis gambar laporan ini.
Kembalikan:
1. metrik utama
2. tren yang terlihat
3. anomali
4. rekomendasi tindakan
5. tabel ringkasan dalam Markdown

Pembuatan UI interaktif

Flash dapat menghasilkan HTML, widget, dan visualisasi yang lebih langsung dapat diuji.

Contoh prompt:

Buat dashboard HTML sederhana untuk metrik API berikut:
- request per menit
- p95 latency
- error rate
- token usage

Gunakan HTML, CSS, dan JavaScript vanilla.
Buat grafik interaktif tanpa library eksternal.

Workload produksi yang sensitif biaya

Google membingkai Flash sebagai model dengan biaya kurang dari setengah model mutakhir lain untuk tugas agenik. Bahkan setelah memperhitungkan faktor pemasaran, biaya per tugas untuk agent run panjang bisa lebih menarik dibanding Opus 4.7 atau GPT-5.5. Rinciannya ada di rincian harga.

Batasan yang Perlu Diperhatikan

Gemini 3.5 Flash bukan solusi untuk semua kasus.

SWE-Bench Verified murni: Opus 4.7 dengan 87,6% masih memimpin pada benchmark perbaikan bug terisolasi.
Suara: Stack suara Gemini terpisah. Untuk workload ini, bandingkan dengan Grok Voice vs GPT-Realtime.
Ekosistem tool: OpenAI dan Anthropic masih lebih matang dalam adaptor pihak ketiga. Google mengejar melalui Antigravity, tetapi ekosistemnya lebih muda.

Cara Menguji Gemini 3.5 Flash Sebelum Produksi

Saat membawa model baru ke produksi, jangan hanya menjalankan beberapa prompt manual. Uji minimal dua hal:

stabilitas bentuk respons
kebenaran tool call

Buat evaluation harness kecil:

1. Kumpulkan 20-100 prompt nyata dari aplikasi Anda.
2. Jalankan prompt terhadap model lama dan gemini-3.5-flash.
3. Catat latency, token input, token output, dan biaya.
4. Validasi output terhadap schema.
5. Jalankan test downstream.
6. Bandingkan failure rate.
7. Putuskan routing traffic secara bertahap.

Contoh checklist evaluasi:

Metrik	Yang dicek
Latency	Waktu sampai token pertama dan total waktu respons
Biaya	Total input/output token per tugas
Validitas schema	Apakah JSON/tool call valid
Task success	Apakah tugas downstream berhasil
Safety behavior	Apakah refusal berubah dari model lama
Streaming UX	Apakah UI bisa merender output cukup cepat

Untuk langkah 1 dan 3, Apidog dapat menyimpan suite pengujian endpoint Flash, termasuk streaming. Anda bisa memutar ulang prompt yang sama di berbagai versi model dan membandingkan output. Unduh Apidog jika ingin menjalankannya secara lokal.

Tips Migrasi dari Gemini 3.1 ke 3.5 Flash

Jika Anda sudah memakai Gemini 3.1, migrasi biasanya berupa perubahan satu string model.

Contoh:

- model: "gemini-3.1-flash"
+ model: "gemini-3.5-flash"

Namun tetap cek detail berikut:

Token budget tetap besar: 1M input dan 64K output.
Tool schema tetap stabil: definisi fungsi yang ada seharusnya tetap bisa digunakan.
Output lebih cepat: UI streaming mungkin perlu throttling jika render terlalu lambat.
Harga berubah: hitung ulang proyeksi biaya dengan panduan harga Flash.
Respons keamanan lebih ketat: jalankan ulang red-team evaluation Anda.

Untuk pola SDK yang lebih detail, lihat panduan API Google Gemini 3.

FAQ

Kapan Gemini 3.5 Pro tersedia?

Google mengumumkan “diluncurkan bulan depan” pada 19 Mei 2026. Artinya, ketersediaan umum diperkirakan pada Juni 2026 di AI Studio, API Gemini, dan Gemini Enterprise. Sampai saat itu, Flash adalah satu-satunya varian 3.5 yang dapat digunakan.

Apakah Gemini 3.5 Flash gratis digunakan?

Ya, dengan kuota harian. Aplikasi Gemini standar dan AI Studio dengan API key menyediakan akses Flash tanpa pembayaran. Lihat panduan gratis Flash dan Dapatkan API Gemini Tanpa Batas Gratis.

Apakah Gemini 3.5 Flash mendukung function calling?

Ya. Tool calling dan pengiriman subagen adalah kemampuan utama. Skor MCP Atlas 83,6% menjadi indikator kuat untuk koordinasi multi-tool.

Bagaimana Flash dibandingkan dengan Opus 4.7 dan GPT-5.5?

Flash unggul dalam biaya, kecepatan output, dan penalaran grafik. Opus 4.7 masih sedikit lebih unggul untuk SWE-Bench Pro dan penulisan bentuk panjang. GPT-5.5 kuat dalam efisiensi token. Lihat perbandingan tiga arah.

Bisakah saya menjalankan Gemini 3.5 Flash secara lokal?

Tidak. Tidak ada rilis open-weights. Untuk inferensi lokal, lihat LLM lokal terbaik tahun 2026.

Apakah Gemini 3.5 Flash berfungsi dengan Cursor?

Ya, melalui API Gemini standar. Polanya sama dengan Gemini 3.0 Pro dengan Cursor.

Apa nama model API untuk Flash?

Gunakan:

gemini-3.5-flash

Pakai string ini di SDK atau endpoint REST Anda.

Dampaknya untuk Stack Anda

Jika Anda menjalankan fitur AI di produksi, gunakan pendekatan berikut:

Sudah memakai 3.1 Flash? Jalankan A/B test dengan 3.5 Flash minggu ini. Peningkatan output streaming saja bisa cukup untuk meningkatkan UX.
Sudah memakai Opus 4.7 atau GPT-5.5? Bandingkan biaya dan kualitas. Untuk workload agenik panjang, Flash bisa layak menerima sebagian traffic.
Membangun agent loop baru? Mulai dari Flash karena biaya dan performanya cocok untuk iterasi.
Workload multimodal berat? Uji sekarang, terutama jika Anda memproses chart, diagram, atau PDF visual.

Model tetap hanya satu komponen dalam pipeline. Anda masih perlu desain prompt, tool wiring, evaluasi, logging, dan regression test. Apidog dapat menangani sisi pengujian API Gemini, sementara logic agent dan evaluasi kualitas tetap perlu Anda desain sendiri.

DEV Community