API Gemini 3.5 Flash diluncurkan bersamaan dengan model pada 19 Mei 2026. Flash adalah satu-satunya varian keluarga 3.5 yang tersedia saat ini; versi Pro akan hadir pada bulan Juni. Artikel ini menunjukkan setup developer end-to-end untuk Flash: membuat kunci API, menjalankan request pertama, memakai input multimodal, streaming, function calling, structured output, dan menguji integrasinya dengan Apidog.
Jika Anda pernah memakai Gemini API, pola integrasinya tetap sama. Perubahan utama ada pada nama model: gemini-3.5-flash. Jika Anda baru mulai, Anda bisa menjalankan request Flash pertama dalam beberapa menit.
Apa yang tersedia di Gemini 3.5 Flash API
Yang perlu Anda ketahui sebelum implementasi:
-
Model:
gemini-3.5-flash - Status: tersedia sekarang
- Karakteristik: cepat, murah, multimodal
- Endpoint: pola API tetap kompatibel dengan proyek yang sudah memakai Gemini 3 atau Gemini 3.1
- Free tier: tersedia melalui AI Studio, sekitar 1.500 request/hari tanpa kartu kredit
Kapabilitas yang bisa Anda gunakan melalui Flash API:
- Konteks input 1M token
- Output hingga 64K token
- Input teks dan gambar
- Output teks dan terstruktur
- Function calling dan tool usage bawaan
- Skor MCP Atlas 83,6%
- Streaming response
- Kecepatan output token/detik sekitar 4x lebih cepat dibandingkan model frontier lainnya
- Skoring pengambilan konteks panjang di bagian atas tabel MRCR v2 Google
- Penalaran chart dan dokumen dengan skor CharXiv 84,2%
Untuk detail biaya per token dan diskon batch mode, lihat panduan harga Gemini 3.5 Flash.
Langkah 1: Dapatkan API key Gemini 3.5 Flash
Ada dua jalur umum:
- Google AI Studio untuk eksperimen dan free tier.
- Vertex AI untuk workload produksi dengan kontrol organisasi.
Jalur A: Google AI Studio
Gunakan jalur ini jika Anda ingin mulai cepat.
- Buka aistudio.google.com
- Login dengan akun Google.
- Klik Dapatkan kunci API di navigasi kiri.
- Pilih project yang sudah ada atau buat project baru.
- Klik Buat kunci API.
- Salin key tersebut dan simpan sebagai environment variable.
Contoh:
export GEMINI_API_KEY="YOUR_API_KEY"
Alurnya sama seperti yang dibahas di panduan kunci API Gemini gratis. Key ini langsung bisa dipakai untuk gemini-3.5-flash dengan kuota harian gratis.
Jalur B: Vertex AI untuk produksi
Gunakan Vertex AI jika Anda membutuhkan billing, audit log, IAM, dan kontrol organisasi.
Langkah dasar:
- Buka Google Cloud Console.
- Aktifkan Vertex AI API.
- Buat service account.
- Berikan role
aiplatform.user. - Unduh kredensial JSON.
- Autentikasi dengan salah satu cara berikut:
gcloud auth application-default login
Atau gunakan file JSON service account sesuai setup deployment Anda.
Vertex AI memakai pola SDK yang sedikit berbeda. Banyak tim mulai dari AI Studio, lalu pindah ke Vertex AI ketika butuh governance dan kuota produksi.
Langkah 2: Instal SDK
SDK resmi Google GenAI tersedia untuk Python, Node.js, Go, dan Java.
Python
pip install -U google-genai
Node.js
npm install @google/genai
Go
go get google.golang.org/genai
Anda juga bisa melewati SDK dan memanggil REST endpoint secara langsung dengan curl.
Langkah 3: Jalankan request Flash pertama
Python
import os
from google import genai
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Jelaskan bagaimana alur OAuth 2.0 PKCE bekerja dalam 3 paragraf singkat."
)
print(response.text)
Node.js
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({
apiKey: process.env.GEMINI_API_KEY,
});
const response = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Jelaskan bagaimana alur OAuth 2.0 PKCE bekerja dalam 3 paragraf singkat.",
});
console.log(response.text);
REST dengan curl
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [{
"text": "Jelaskan bagaimana alur OAuth 2.0 PKCE bekerja dalam 3 paragraf singkat."
}]
}]
}'
Jika response berhasil, Anda sudah siap menambahkan fitur seperti streaming, image input, tool calling, dan JSON output.
Streaming response
Gunakan streaming jika output panjang atau Anda ingin UI terasa lebih responsif.
Python
stream = client.models.generate_content_stream(
model="gemini-3.5-flash",
contents="Tulis tutorial 5 langkah tentang cara menulis klien REST API di Go."
)
for chunk in stream:
print(chunk.text, end="", flush=True)
Node.js
const stream = await ai.models.generateContentStream({
model: "gemini-3.5-flash",
contents: "Tulis tutorial 5 langkah tentang cara menulis klien REST API di Go.",
});
for await (const chunk of stream) {
process.stdout.write(chunk.text);
}
Untuk REST mentah, ubah suffix endpoint:
:generateContent
Menjadi:
:streamGenerateContent
Input multimodal dengan Flash
Gemini 3.5 Flash menerima input gambar bersama teks. Ini berguna untuk OCR ringan, chart reasoning, screenshot dashboard, dan ekstraksi data visual.
Python: baca gambar dari disk
import os
from google import genai
from google.genai import types
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
with open("dashboard.png", "rb") as f:
image_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
"Ekstrak setiap metrik di dashboard ini sebagai objek JSON."
]
)
print(response.text)
MIME type gambar yang didukung:
image/pngimage/jpegimage/webpimage/heicimage/heif
PDF dan video juga dapat digunakan melalui types.Part.from_uri().
Function calling dan tool usage
Flash dapat memilih tool dan mengembalikan argumen function call. Anda tetap bertanggung jawab menjalankan function tersebut di aplikasi Anda.
Contoh deklarasi tool di Python
from google.genai import types
weather_tool = types.Tool(
function_declarations=[{
"name": "get_current_weather",
"description": "Dapatkan cuaca saat ini untuk suatu kota.",
"parameters": {
"type": "object",
"properties": {
"city": {
"type": "string",
"description": "Nama kota"
},
"unit": {
"type": "string",
"enum": ["celsius", "fahrenheit"]
}
},
"required": ["city"]
}
}]
)
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Bagaimana cuaca di Singapura sekarang?",
config=types.GenerateContentConfig(tools=[weather_tool])
)
for part in response.candidates[0].content.parts:
if part.function_call:
print(f"Call: {part.function_call.name}")
print(f"Args: {dict(part.function_call.args)}")
Output model berisi objek function_call dengan nama function dan argumen. Pola implementasinya:
- Kirim prompt dan daftar tool ke Gemini.
- Cek apakah response memiliki
function_call. - Jalankan function lokal atau panggil API internal Anda.
- Kirim hasil function kembali ke model.
- Lanjutkan percakapan sampai model mengembalikan jawaban final.
Pola ini cocok dengan implementasi yang sudah banyak dipakai di Gemini 3 Flash API.
Structured output dengan mode JSON
Jika aplikasi Anda butuh output yang bisa langsung diparse, paksa response menjadi JSON dengan response_mime_type dan response_schema.
from google.genai import types
import json
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Daftar 3 alat pengujian API populer beserta harganya.",
config=types.GenerateContentConfig(
response_mime_type="application/json",
response_schema={
"type": "array",
"items": {
"type": "object",
"properties": {
"name": {"type": "string"},
"price_per_month": {"type": "number"},
"free_tier": {"type": "boolean"}
},
"required": ["name", "free_tier"]
}
}
)
)
data = json.loads(response.text)
print(data)
Dengan pola ini, Anda tidak perlu parsing manual dengan regex atau membuat retry loop hanya untuk memperbaiki format JSON.
Harga per Mei 2026
Tarif pay-as-you-go untuk gemini-3.5-flash:
| Tingkat | Masukan | Keluaran |
|---|---|---|
| Standar | ~$1.50 / 1 Juta token | ~$9.00 / 1 Juta token |
| Masukan yang di-cache | tarif diskon | t/a |
| Mode batch | Diskon ~50% | Diskon ~50% |
Untuk workload batch, mode batch Gemini API memberi diskon 50% untuk pekerjaan yang tidak membutuhkan latensi real-time.
Untuk estimasi biaya yang lebih lengkap, termasuk skenario SaaS harian dan agent loop, lihat uraian harga Flash. Untuk referensi resmi, lihat harga Gemini Developer API.
Menguji integrasi Gemini 3.5 Flash dengan Apidog
Request SDK yang berhasil belum cukup untuk production readiness. Anda juga perlu menguji:
- Streaming chunk
- Payload multimodal
- Validasi schema JSON
- Function calling
- Retry error
- Rate limit
- Mock response untuk downstream service
Apidog membantu menguji seluruh permukaan Gemini Flash API dalam satu workspace.
Workflow praktis:
- Buat request baru.
- Tempel endpoint Flash:
https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent
- Tambahkan header:
x-goog-api-key: YOUR_API_KEY
Content-Type: application/json
- Masukkan body request:
{
"contents": [
{
"parts": [
{
"text": "Jelaskan bagaimana alur OAuth 2.0 PKCE bekerja dalam 3 paragraf singkat."
}
]
}
]
}
- Klik Send.
- Simpan request sebagai collection agar bisa dipakai ulang.
Hal yang bisa Anda lakukan di Apidog:
-
Simpan endpoint Flash sebagai request: gunakan URL lengkap dan header
x-goog-api-key. -
Bandingkan versi model: ganti
gemini-3.5-flashdengangemini-3-flashdi request yang sama. -
Debug streaming: gunakan endpoint
:streamGenerateContentdan lihat chunk saat datang. - Validasi JSON schema: gunakan assertion untuk menangkap perubahan format output.
- Mock endpoint Flash: uji kode downstream tanpa menghabiskan kuota API.
- Bangun skenario agent loop: chain beberapa request dan validasi function call di setiap langkah.
Untuk mulai cepat, unduh Apidog, buat request baru ke endpoint Flash, lalu impor snippet curl dari bagian awal artikel ini.
Error handling dan rate limit
Kode error yang umum:
-
400: request salah, biasanya
contentstidak valid atau MIME type tidak didukung. - 401: API key salah.
- 403: kuota habis atau model belum aktif.
- 429: rate limit, tunggu lalu retry.
- 500/503: error server, retry dengan exponential backoff.
Contoh wrapper retry sederhana:
import time
from google import genai
def call_with_retry(client, model, prompt, max_retries=3):
for attempt in range(max_retries):
try:
return client.models.generate_content(
model=model,
contents=prompt
)
except Exception:
if attempt == max_retries - 1:
raise
wait_seconds = 2 ** attempt
time.sleep(wait_seconds)
Kuota free tier direset harian. Untuk Flash, batasnya sekitar 15 request per menit dan sekitar 1.500 request per hari. Kuota produksi direset per menit dan per hari.
Untuk throughput tinggi:
- Gunakan batch mode jika tidak membutuhkan real-time response.
- Tambahkan retry dengan backoff.
- Tambahkan fallback bertingkat ke Gemini 3 Flash saat mencapai limit.
Migrasi dari Gemini 3.1 ke 3.5 Flash
Untuk sebagian besar proyek, migrasi hanya mengubah nama model.
# Sebelum
model = "gemini-3.1-pro" # atau gemini-3.1-flash
# Setelah
model = "gemini-3.5-flash"
Setelah mengganti model, verifikasi empat hal berikut:
Schema tool
Pastikan deklarasi function dan argumen masih cocok dengan aplikasi Anda.Kecepatan streaming
Flash dapat mengirim output lebih cepat. UI Anda mungkin perlu throttling atau buffering.Anggaran token
Batas konteks tetap besar, yaitu 1M input dan 64K output. Namun output aktual bisa berubah tergantung prompt.Pola penolakan
Safety behavior dapat berbeda, terutama pada edge case. Jalankan ulang test suite Anda.
Untuk pola SDK yang lebih lengkap, lihat panduan Gemini 3.1 Pro API.
Pola implementasi umum
1. Analisis dokumen konteks panjang
Gunakan ini untuk PDF laporan, dokumen teknis, kontrak, atau dokumen internal.
from google.genai import types
with open("large_report.pdf", "rb") as f:
pdf_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(
data=pdf_bytes,
mime_type="application/pdf"
),
"Ringkas prospek keuangan dari laporan ini dalam 5 poin."
]
)
print(response.text)
Konteks 1M token memungkinkan Anda memproses PDF besar tanpa memotong dokumen secara agresif.
2. Agent loop dengan function calling
Pola ini berguna untuk workflow yang perlu mengambil data, memanggil API, lalu membuat keputusan berikutnya.
conversation = [
{
"role": "user",
"parts": [
{"text": "Pesan saya penerbangan ke Tokyo"}
]
}
]
while True:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=conversation,
config=types.GenerateContentConfig(
tools=[flight_search_tool, booking_tool]
)
)
part = response.candidates[0].content.parts[0]
if not part.function_call:
print(part.text)
break
result = execute_tool(part.function_call)
conversation.append({
"role": "model",
"parts": [part]
})
conversation.append({
"role": "user",
"parts": [
{"function_response": result}
]
})
Ini adalah pola loop yang diukur oleh skor Terminal-Bench 2.1 Flash sebesar 76,2%.
FAQ
Apakah ada free tier untuk Gemini 3.5 Flash API?
Ya. Free tier tersedia melalui Google AI Studio dengan kuota harian sekitar 1.500 request/hari. Tidak membutuhkan kartu kredit.
Apakah Flash mendukung endpoint kompatibel OpenAI?
Ya. Google menyediakan shim kompatibel OpenAI di:
/v1beta/openai/
Anda dapat mengarahkan SDK OpenAI ke endpoint tersebut dengan mengatur base_url dan memakai Gemini API key. Nama model tetap:
gemini-3.5-flash
Bisakah Flash digunakan dengan LangChain atau LlamaIndex?
Ya. Keduanya memiliki integrasi Gemini native. Gunakan model berikut di wrapper masing-masing:
model="gemini-3.5-flash"
Kapan Gemini 3.5 Pro dirilis?
Juni 2026 sesuai pengumuman peluncuran Google. Sampai saat itu, Flash adalah satu-satunya varian 3.5 yang tersedia.
Berapa ukuran gambar maksimum untuk Flash?
Ukuran yang direkomendasikan adalah 3072×3072. Gambar yang lebih besar akan di-resample. Untuk workload OCR intensif, lihat alur kerja OCR Gemini 2.0 Flash. Polanya tetap relevan.
Bagaimana cara menguji endpoint streaming di Apidog?
Buat request dengan suffix endpoint berikut:
:streamGenerateContent
Apidog akan merender chunk SSE saat tiba. Ini berguna untuk men-debug response yang terpotong atau tidak lengkap.
Di mana saya bisa melihat log API?
- Di AI Studio: buka Activity.
- Di Vertex AI: buka Logs Explorer untuk deployment produksi.
Apa yang bisa Anda bangun terlebih dahulu
Berikut beberapa proyek awal yang cocok untuk Gemini 3.5 Flash:
Bot tanya jawab PDF
Masukkan PDF ke konteks 1M, ajukan pertanyaan, dan kembalikan jawaban dengan kutipan.Pipeline chart-to-JSON
Kirim screenshot dashboard, lalu ekstrak metrik menjadi data terstruktur.Agent dukungan pelanggan
Gunakan function calling ke CRM atau helpdesk API.Asisten review kode
Kirim diff multi-file, lalu minta output terstruktur dengan severity.Agent pencarian internal
Gabungkan konteks panjang dengan tool call ke API internal.
Untuk semua pola tersebut, workflow pengujiannya sama: buat prompt, bungkus dalam SDK atau REST call, validasi bentuk response dengan Apidog, lalu integrasikan ke aplikasi Anda.



Top comments (0)