L'API Gemini 3.5 Flash a été mise en ligne avec le lancement du modèle le 19 mai 2026. Flash est la seule variante de la famille 3.5 disponible aujourd'hui ; Pro sera disponible en juin. Ce guide vous montre comment configurer Flash côté développeur : obtenir une clé, effectuer un premier appel, gérer le multimodal, le streaming, les outils, la sortie JSON et tester l’intégration avec Apidog.
Si vous avez déjà utilisé l'API Gemini, le changement principal est le nom du modèle : gemini-3.5-flash. Si vous démarrez de zéro, vous pouvez envoyer une requête Flash fonctionnelle en quelques minutes.
Ce que vous obtenez avec l'API Gemini 3.5 Flash
À retenir avant d’intégrer le modèle :
-
gemini-3.5-flash: disponible maintenant, rapide, économique et multimodal - Même point d'accès de style OpenAPI : remplacement direct pour les projets qui utilisent déjà Gemini 3 ou 3.1
- Niveau gratuit sur AI Studio : environ 1 500 requêtes/jour sans carte de crédit
Capacités exposées via l'API Flash :
- Contexte d'entrée de 1M de tokens, 64K tokens de sortie
- Entrée texte + image, sortie texte + structurée
- Appel de fonction natif et utilisation d'outils
- Réponses en streaming
- Récupération sur contexte long
- Raisonnement sur graphiques et documents
Pour les détails de tarification, y compris les tarifs par token et les remises en mode batch, consultez le guide de tarification de Gemini 3.5 Flash.
Étape 1 : obtenir une clé API Gemini 3.5 Flash
Vous avez deux options selon votre usage : AI Studio pour démarrer rapidement, Vertex AI pour la production.
Option A : Google AI Studio
- Ouvrez aistudio.google.com
- Connectez-vous avec un compte Google
- Cliquez sur Obtenir une clé API
- Sélectionnez un projet existant ou créez-en un
- Cliquez sur Créer une clé API
- Copiez la clé et stockez-la dans une variable d’environnement
Exemple :
export GEMINI_API_KEY="votre-cle-api"
Le processus est le même que dans le guide de la clé API Gemini gratuite. La clé fonctionne immédiatement avec gemini-3.5-flash.
Option B : Vertex AI pour la production
Utilisez Vertex AI si vous avez besoin de facturation centralisée, IAM, journaux d’audit et contrôles organisationnels.
- Activez l’API Vertex AI dans la Google Cloud Console
- Créez un compte de service avec le rôle
aiplatform.user - Téléchargez les identifiants JSON
- Authentifiez-vous avec :
gcloud auth application-default login
ou configurez le fichier JSON comme identifiant d’application.
La plupart des équipes commencent avec AI Studio, puis migrent vers Vertex AI lorsque les contraintes de production l’exigent.
Étape 2 : installer le SDK
Le SDK officiel Google GenAI est disponible pour Python, Node.js, Go et Java.
# Python
pip install -U google-genai
# Node.js
npm install @google/genai
# Go
go get google.golang.org/genai
Vous pouvez aussi appeler directement l’API REST avec curl, sans SDK.
Étape 3 : effectuer un premier appel Flash
Python
import os
from google import genai
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."
)
print(response.text)
Node.js
import { GoogleGenAI } from "@google/genai";
const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });
const response = await ai.models.generateContent({
model: "gemini-3.5-flash",
contents: "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs.",
});
console.log(response.text);
curl
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
-H "x-goog-api-key: $GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"parts": [{"text": "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."}]
}]
}'
À ce stade, l’intégration minimale fonctionne. Vous pouvez ensuite ajouter le streaming, les entrées multimodales, les outils ou la validation JSON.
Réponses en streaming
Le streaming est utile si votre interface doit afficher la réponse progressivement au lieu d’attendre la sortie complète.
Python
stream = client.models.generate_content_stream(
model="gemini-3.5-flash",
contents="Write a 5-step tutorial on writing a REST API client in Go."
)
for chunk in stream:
print(chunk.text, end="", flush=True)
Node.js
const stream = await ai.models.generateContentStream({
model: "gemini-3.5-flash",
contents: "Write a 5-step tutorial on writing a REST API client in Go.",
});
for await (const chunk of stream) {
process.stdout.write(chunk.text);
}
En REST brut, remplacez le suffixe :
:generateContent
par :
:streamGenerateContent
Entrée multimodale avec Flash
Gemini 3.5 Flash accepte les images en plus du texte. C’est utile pour extraire des données depuis des tableaux de bord, graphiques, captures d’écran ou documents visuels.
Python : image depuis le disque
import os
from google import genai
from google.genai import types
client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])
with open("dashboard.png", "rb") as f:
image_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
"Extract every metric in this dashboard as a JSON object."
]
)
print(response.text)
Types MIME pris en charge :
image/pngimage/jpegimage/webpimage/heicimage/heif
Les PDF et les vidéos peuvent également être utilisés via types.Part.from_uri().
Appel de fonction et utilisation d’outils avec Flash
L’appel d’outils permet au modèle de demander l’exécution d’une fonction externe au lieu de tout générer en texte libre.
Exemple : déclarer un outil météo.
from google.genai import types
weather_tool = types.Tool(
function_declarations=[{
"name": "get_current_weather",
"description": "Get the current weather for a city.",
"parameters": {
"type": "object",
"properties": {
"city": {"type": "string", "description": "City name"},
"unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
},
"required": ["city"]
}
}]
)
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="What's the weather in Singapore right now?",
config=types.GenerateContentConfig(tools=[weather_tool])
)
for part in response.candidates[0].content.parts:
if part.function_call:
print(f"Call: {part.function_call.name}")
print(f"Args: {dict(part.function_call.args)}")
Le modèle renvoie un objet function_call avec :
- le nom de la fonction
- les arguments à transmettre
Ensuite, votre application exécute la fonction localement, renvoie le résultat au modèle et continue la conversation. Ce modèle correspond à celui déjà utilisé avec l’API Gemini 3 Flash.
Sortie structurée en JSON
Pour éviter de parser du texte libre, forcez une sortie JSON avec un type MIME et un schéma.
response = client.models.generate_content(
model="gemini-3.5-flash",
contents="List 3 popular API testing tools with their pricing.",
config=types.GenerateContentConfig(
response_mime_type="application/json",
response_schema={
"type": "array",
"items": {
"type": "object",
"properties": {
"name": {"type": "string"},
"price_per_month": {"type": "number"},
"free_tier": {"type": "boolean"}
},
"required": ["name", "free_tier"]
}
}
)
)
import json
data = json.loads(response.text)
Cette approche réduit les erreurs côté application : pas de regex, moins de retries, validation plus simple.
Tarification à partir de mai 2026
Tarifs à la consommation pour gemini-3.5-flash :
| Niveau | Entrée | Sortie |
|---|---|---|
| Standard | ~1,50 $ / 1M de tokens | ~9,00 $ / 1M de tokens |
| Entrée mise en cache | tarif réduit | s.o. |
| Mode batch | ~50% de réduction | ~50% de réduction |
Pour les charges de travail par lots, le mode batch de l'API Gemini offre une réduction de 50 % sur les tâches qui ne nécessitent pas une latence en temps réel.
Pour le calcul complet de la tarification, y compris les scénarios de coûts pour SaaS et boucles d’agents, consultez la ventilation de la tarification Flash. Pour la référence officielle, consultez la tarification de l'API Gemini Developer.
Tester votre intégration Gemini 3.5 Flash avec Apidog
Un appel SDK fonctionnel ne suffit pas pour une intégration de production. Vous devez aussi tester :
- les fragments de streaming
- la validation des appels d’outils
- les charges utiles multimodales
- les retries
- les erreurs HTTP
- les limites de débit
- la forme des réponses JSON
Apidog permet de tester toute la surface de l’API Gemini Flash dans un seul espace de travail :
-
Enregistrer le point d'accès Flash comme requête : collez l’URL complète, ajoutez
x-goog-api-key, puis envoyez la requête -
Comparer plusieurs versions de modèle : remplacez
gemini-3.5-flashpargemini-3-flashdans la même requête - Streamer les réponses : visualisez les fragments au fur et à mesure de leur arrivée
- Valider le JSON : ajoutez des assertions pour détecter les dérives de schéma
- Simuler le point d'accès Flash : testez votre code aval sans consommer de quota
- Construire des scénarios d’agents : enchaînez plusieurs appels Flash et validez les appels d’outils entre chaque étape
Pour démarrer :
- Téléchargez Apidog
- Créez une nouvelle requête
- Collez l’URL REST de Flash
- Ajoutez l’en-tête
x-goog-api-key - Importez l’extrait
curlde cet article - Envoyez la requête et inspectez la réponse
Gestion des erreurs et limites de débit
Les codes HTTP importants :
-
400 : requête invalide, souvent un tableau
contentsmal formé ou un type MIME non pris en charge - 401 : clé API invalide
- 403 : quota épuisé ou modèle non activé
- 429 : limite de débit atteinte
- 500/503 : erreur côté serveur, à réessayer avec temporisation exponentielle
Ajoutez une boucle de retry autour de vos appels :
import time
from google import genai
def call_with_retry(client, model, prompt, max_retries=3):
for attempt in range(max_retries):
try:
return client.models.generate_content(
model=model,
contents=prompt
)
except Exception:
if attempt == max_retries - 1:
raise
time.sleep(2 ** attempt)
Les quotas du niveau gratuit sont réinitialisés quotidiennement : environ 15 requêtes par minute et 1 500 par jour sur Flash. Les quotas de production sont réinitialisés par minute et par jour.
Pour les tâches à haut débit, évaluez le mode batch ou prévoyez une solution de repli vers Gemini 3 Flash lorsque les limites sont atteintes.
Migration de Gemini 3.1 vers 3.5 Flash
Dans la plupart des projets, la migration consiste à changer le nom du modèle.
# Avant
model="gemini-3.1-pro" # ou gemini-3.1-flash
# Après
model="gemini-3.5-flash"
Après le changement, vérifiez :
- Schémas d’outils : réexécutez vos tests de function calling
- Streaming UI : adaptez l’interface si les fragments arrivent plus vite
- Budgets de tokens : conservez vos limites, mais surveillez les sorties
- Refus et garde-fous : comparez les réponses sur vos cas limites
Pour un guide plus détaillé, le guide de l'API Gemini 3.1 Pro couvre le modèle SDK et reste transférable.
Modèles d’implémentation courants
Analyse de documents à contexte long
with open("large_report.pdf", "rb") as f:
pdf_bytes = f.read()
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=[
types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
"Summarize the financial outlook from this report in 5 bullet points."
]
)
Le contexte de 1M de tokens de Flash permet de traiter des PDF volumineux sans découpage manuel dans de nombreux cas.
Boucle d’agent avec appels d’outils
conversation = [
{
"role": "user",
"parts": [{"text": "Book me a flight to Tokyo"}]
}
]
while True:
response = client.models.generate_content(
model="gemini-3.5-flash",
contents=conversation,
config=types.GenerateContentConfig(
tools=[flight_search_tool, booking_tool]
)
)
part = response.candidates[0].content.parts[0]
if not part.function_call:
print(part.text)
break
result = execute_tool(part.function_call)
conversation.append({
"role": "model",
"parts": [part]
})
conversation.append({
"role": "user",
"parts": [{"function_response": result}]
})
Ce modèle est utile pour les agents qui doivent sélectionner un outil, exécuter une action externe, puis continuer la conversation avec le résultat.
FAQ
Existe-t-il un niveau gratuit pour l'API Gemini 3.5 Flash ?
Oui, via Google AI Studio, avec des quotas quotidiens d’environ 1 500 requêtes/jour. Aucune carte de crédit requise.
Flash prend-il en charge les points d'accès compatibles OpenAI ?
Oui. Google expose un adaptateur compatible OpenAI à l’adresse /v1beta/openai/. Vous pouvez configurer base_url dans un SDK OpenAI et utiliser votre clé Gemini. Le nom du modèle reste gemini-3.5-flash.
Puis-je utiliser Flash avec LangChain ou LlamaIndex ?
Oui. Les deux disposent d’intégrations Gemini natives. Passez model="gemini-3.5-flash" dans leurs wrappers respectifs.
Quand Gemini 3.5 Pro sera-t-il disponible ?
Juin 2026 selon l’annonce de lancement de Google. D’ici là, Flash est la seule variante 3.5 disponible.
Quelle est la taille d'image maximale pour Flash ?
La recommandation est 3072×3072. Les images plus grandes sont rééchantillonnées. Pour les workflows OCR, consultez le flux de travail OCR de Gemini 2.0 Flash.
Comment tester les points d'accès de streaming dans Apidog ?
Ouvrez la requête, utilisez :streamGenerateContent comme suffixe du point d’accès, puis envoyez la requête. Apidog affiche les fragments SSE au fur et à mesure.
Où consulter les journaux de l'API ?
Dans AI Studio sous Activité, ou dans Vertex AI sous Explorateur de journaux pour les déploiements de production.
Quoi construire en premier
Projets simples à lancer avec Flash :
- Robot Q&A PDF : injectez un PDF dans le contexte, posez des questions, retournez des réponses citées
- Pipeline graphique-vers-JSON : envoyez une capture de tableau de bord, extrayez des métriques structurées
- Agent de support client : connectez l’appel de fonction à votre CRM
- Assistant de révision de code : analysez des diffs multi-fichiers avec sortie structurée
- Agent de recherche interne : combinez le contexte long avec des appels vers vos API internes
Le workflow reste le même : écrivez l’invite, appelez le SDK, validez la réponse avec Apidog, puis déployez.



Top comments (0)