Antoine Laurent

Posted on May 20 • Originally published at apidog.com

Comment utiliser l'API Gemini 3.5 Flash ?

L'API Gemini 3.5 Flash a été mise en ligne avec le lancement du modèle le 19 mai 2026. Flash est la seule variante de la famille 3.5 disponible aujourd'hui ; Pro sera disponible en juin. Ce guide vous montre comment configurer Flash côté développeur : obtenir une clé, effectuer un premier appel, gérer le multimodal, le streaming, les outils, la sortie JSON et tester l’intégration avec Apidog.

Essayez Apidog aujourd’hui

Si vous avez déjà utilisé l'API Gemini, le changement principal est le nom du modèle : gemini-3.5-flash. Si vous démarrez de zéro, vous pouvez envoyer une requête Flash fonctionnelle en quelques minutes.

Ce que vous obtenez avec l'API Gemini 3.5 Flash

À retenir avant d’intégrer le modèle :

gemini-3.5-flash : disponible maintenant, rapide, économique et multimodal
Même point d'accès de style OpenAPI : remplacement direct pour les projets qui utilisent déjà Gemini 3 ou 3.1
Niveau gratuit sur AI Studio : environ 1 500 requêtes/jour sans carte de crédit

Capacités exposées via l'API Flash :

Contexte d'entrée de 1M de tokens, 64K tokens de sortie
Entrée texte + image, sortie texte + structurée
Appel de fonction natif et utilisation d'outils
Réponses en streaming
Récupération sur contexte long
Raisonnement sur graphiques et documents

Pour les détails de tarification, y compris les tarifs par token et les remises en mode batch, consultez le guide de tarification de Gemini 3.5 Flash.

Étape 1 : obtenir une clé API Gemini 3.5 Flash

Vous avez deux options selon votre usage : AI Studio pour démarrer rapidement, Vertex AI pour la production.

Option A : Google AI Studio

Ouvrez aistudio.google.com
Connectez-vous avec un compte Google
Cliquez sur Obtenir une clé API
Sélectionnez un projet existant ou créez-en un
Cliquez sur Créer une clé API
Copiez la clé et stockez-la dans une variable d’environnement

Exemple :

export GEMINI_API_KEY="votre-cle-api"

Le processus est le même que dans le guide de la clé API Gemini gratuite. La clé fonctionne immédiatement avec gemini-3.5-flash.

Option B : Vertex AI pour la production

Utilisez Vertex AI si vous avez besoin de facturation centralisée, IAM, journaux d’audit et contrôles organisationnels.

Activez l’API Vertex AI dans la Google Cloud Console
Créez un compte de service avec le rôle aiplatform.user
Téléchargez les identifiants JSON
Authentifiez-vous avec :

gcloud auth application-default login

ou configurez le fichier JSON comme identifiant d’application.

La plupart des équipes commencent avec AI Studio, puis migrent vers Vertex AI lorsque les contraintes de production l’exigent.

Étape 2 : installer le SDK

Le SDK officiel Google GenAI est disponible pour Python, Node.js, Go et Java.

# Python
pip install -U google-genai

# Node.js
npm install @google/genai

# Go
go get google.golang.org/genai

Vous pouvez aussi appeler directement l’API REST avec curl, sans SDK.

Étape 3 : effectuer un premier appel Flash

Python

import os
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."
)

print(response.text)

Node.js

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs.",
});

console.log(response.text);

curl

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [{"text": "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."}]
    }]
  }'

À ce stade, l’intégration minimale fonctionne. Vous pouvez ensuite ajouter le streaming, les entrées multimodales, les outils ou la validation JSON.

Réponses en streaming

Le streaming est utile si votre interface doit afficher la réponse progressivement au lieu d’attendre la sortie complète.

Python

stream = client.models.generate_content_stream(
    model="gemini-3.5-flash",
    contents="Write a 5-step tutorial on writing a REST API client in Go."
)

for chunk in stream:
    print(chunk.text, end="", flush=True)

Node.js

const stream = await ai.models.generateContentStream({
  model: "gemini-3.5-flash",
  contents: "Write a 5-step tutorial on writing a REST API client in Go.",
});

for await (const chunk of stream) {
  process.stdout.write(chunk.text);
}

En REST brut, remplacez le suffixe :

:generateContent

par :

:streamGenerateContent

Entrée multimodale avec Flash

Gemini 3.5 Flash accepte les images en plus du texte. C’est utile pour extraire des données depuis des tableaux de bord, graphiques, captures d’écran ou documents visuels.

Python : image depuis le disque

import os
from google import genai
from google.genai import types

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

with open("dashboard.png", "rb") as f:
    image_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
        "Extract every metric in this dashboard as a JSON object."
    ]
)

print(response.text)

Types MIME pris en charge :

image/png
image/jpeg
image/webp
image/heic
image/heif

Les PDF et les vidéos peuvent également être utilisés via types.Part.from_uri().

Appel de fonction et utilisation d’outils avec Flash

L’appel d’outils permet au modèle de demander l’exécution d’une fonction externe au lieu de tout générer en texte libre.

Exemple : déclarer un outil météo.

from google.genai import types

weather_tool = types.Tool(
    function_declarations=[{
        "name": "get_current_weather",
        "description": "Get the current weather for a city.",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "City name"},
                "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
            },
            "required": ["city"]
        }
    }]
)

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="What's the weather in Singapore right now?",
    config=types.GenerateContentConfig(tools=[weather_tool])
)

for part in response.candidates[0].content.parts:
    if part.function_call:
        print(f"Call: {part.function_call.name}")
        print(f"Args: {dict(part.function_call.args)}")

Le modèle renvoie un objet function_call avec :

le nom de la fonction
les arguments à transmettre

Ensuite, votre application exécute la fonction localement, renvoie le résultat au modèle et continue la conversation. Ce modèle correspond à celui déjà utilisé avec l’API Gemini 3 Flash.

Sortie structurée en JSON

Pour éviter de parser du texte libre, forcez une sortie JSON avec un type MIME et un schéma.

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="List 3 popular API testing tools with their pricing.",
    config=types.GenerateContentConfig(
        response_mime_type="application/json",
        response_schema={
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "name": {"type": "string"},
                    "price_per_month": {"type": "number"},
                    "free_tier": {"type": "boolean"}
                },
                "required": ["name", "free_tier"]
            }
        }
    )
)

import json
data = json.loads(response.text)

Cette approche réduit les erreurs côté application : pas de regex, moins de retries, validation plus simple.

Tarification à partir de mai 2026

Tarifs à la consommation pour gemini-3.5-flash :

Niveau	Entrée	Sortie
Standard	~1,50 $ / 1M de tokens	~9,00 $ / 1M de tokens
Entrée mise en cache	tarif réduit	s.o.
Mode batch	~50% de réduction	~50% de réduction

Pour les charges de travail par lots, le mode batch de l'API Gemini offre une réduction de 50 % sur les tâches qui ne nécessitent pas une latence en temps réel.

Pour le calcul complet de la tarification, y compris les scénarios de coûts pour SaaS et boucles d’agents, consultez la ventilation de la tarification Flash. Pour la référence officielle, consultez la tarification de l'API Gemini Developer.

Tester votre intégration Gemini 3.5 Flash avec Apidog

Un appel SDK fonctionnel ne suffit pas pour une intégration de production. Vous devez aussi tester :

les fragments de streaming
la validation des appels d’outils
les charges utiles multimodales
les retries
les erreurs HTTP
les limites de débit
la forme des réponses JSON

Apidog permet de tester toute la surface de l’API Gemini Flash dans un seul espace de travail :

Enregistrer le point d'accès Flash comme requête : collez l’URL complète, ajoutez x-goog-api-key, puis envoyez la requête
Comparer plusieurs versions de modèle : remplacez gemini-3.5-flash par gemini-3-flash dans la même requête
Streamer les réponses : visualisez les fragments au fur et à mesure de leur arrivée
Valider le JSON : ajoutez des assertions pour détecter les dérives de schéma
Simuler le point d'accès Flash : testez votre code aval sans consommer de quota
Construire des scénarios d’agents : enchaînez plusieurs appels Flash et validez les appels d’outils entre chaque étape

Pour démarrer :

Téléchargez Apidog
Créez une nouvelle requête
Collez l’URL REST de Flash
Ajoutez l’en-tête x-goog-api-key
Importez l’extrait curl de cet article
Envoyez la requête et inspectez la réponse

Gestion des erreurs et limites de débit

Les codes HTTP importants :

400 : requête invalide, souvent un tableau contents mal formé ou un type MIME non pris en charge
401 : clé API invalide
403 : quota épuisé ou modèle non activé
429 : limite de débit atteinte
500/503 : erreur côté serveur, à réessayer avec temporisation exponentielle

Ajoutez une boucle de retry autour de vos appels :

import time
from google import genai

def call_with_retry(client, model, prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.models.generate_content(
                model=model,
                contents=prompt
            )
        except Exception:
            if attempt == max_retries - 1:
                raise
            time.sleep(2 ** attempt)

Les quotas du niveau gratuit sont réinitialisés quotidiennement : environ 15 requêtes par minute et 1 500 par jour sur Flash. Les quotas de production sont réinitialisés par minute et par jour.

Pour les tâches à haut débit, évaluez le mode batch ou prévoyez une solution de repli vers Gemini 3 Flash lorsque les limites sont atteintes.

Migration de Gemini 3.1 vers 3.5 Flash

Dans la plupart des projets, la migration consiste à changer le nom du modèle.

# Avant
model="gemini-3.1-pro"  # ou gemini-3.1-flash

# Après
model="gemini-3.5-flash"

Après le changement, vérifiez :

Schémas d’outils : réexécutez vos tests de function calling
Streaming UI : adaptez l’interface si les fragments arrivent plus vite
Budgets de tokens : conservez vos limites, mais surveillez les sorties
Refus et garde-fous : comparez les réponses sur vos cas limites

Pour un guide plus détaillé, le guide de l'API Gemini 3.1 Pro couvre le modèle SDK et reste transférable.

Modèles d’implémentation courants

Analyse de documents à contexte long

with open("large_report.pdf", "rb") as f:
    pdf_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
        "Summarize the financial outlook from this report in 5 bullet points."
    ]
)

Le contexte de 1M de tokens de Flash permet de traiter des PDF volumineux sans découpage manuel dans de nombreux cas.

Boucle d’agent avec appels d’outils

conversation = [
    {
        "role": "user",
        "parts": [{"text": "Book me a flight to Tokyo"}]
    }
]

while True:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents=conversation,
        config=types.GenerateContentConfig(
            tools=[flight_search_tool, booking_tool]
        )
    )

    part = response.candidates[0].content.parts[0]

    if not part.function_call:
        print(part.text)
        break

    result = execute_tool(part.function_call)

    conversation.append({
        "role": "model",
        "parts": [part]
    })

    conversation.append({
        "role": "user",
        "parts": [{"function_response": result}]
    })

Ce modèle est utile pour les agents qui doivent sélectionner un outil, exécuter une action externe, puis continuer la conversation avec le résultat.

FAQ

Existe-t-il un niveau gratuit pour l'API Gemini 3.5 Flash ?

Oui, via Google AI Studio, avec des quotas quotidiens d’environ 1 500 requêtes/jour. Aucune carte de crédit requise.

Flash prend-il en charge les points d'accès compatibles OpenAI ?

Oui. Google expose un adaptateur compatible OpenAI à l’adresse /v1beta/openai/. Vous pouvez configurer base_url dans un SDK OpenAI et utiliser votre clé Gemini. Le nom du modèle reste gemini-3.5-flash.

Puis-je utiliser Flash avec LangChain ou LlamaIndex ?

Oui. Les deux disposent d’intégrations Gemini natives. Passez model="gemini-3.5-flash" dans leurs wrappers respectifs.

Quand Gemini 3.5 Pro sera-t-il disponible ?

Juin 2026 selon l’annonce de lancement de Google. D’ici là, Flash est la seule variante 3.5 disponible.

Quelle est la taille d'image maximale pour Flash ?

La recommandation est 3072×3072. Les images plus grandes sont rééchantillonnées. Pour les workflows OCR, consultez le flux de travail OCR de Gemini 2.0 Flash.

Comment tester les points d'accès de streaming dans Apidog ?

Ouvrez la requête, utilisez :streamGenerateContent comme suffixe du point d’accès, puis envoyez la requête. Apidog affiche les fragments SSE au fur et à mesure.

Où consulter les journaux de l'API ?

Dans AI Studio sous Activité, ou dans Vertex AI sous Explorateur de journaux pour les déploiements de production.

Quoi construire en premier

Projets simples à lancer avec Flash :

Robot Q&A PDF : injectez un PDF dans le contexte, posez des questions, retournez des réponses citées
Pipeline graphique-vers-JSON : envoyez une capture de tableau de bord, extrayez des métriques structurées
Agent de support client : connectez l’appel de fonction à votre CRM
Assistant de révision de code : analysez des diffs multi-fichiers avec sortie structurée
Agent de recherche interne : combinez le contexte long avec des appels vers vos API internes

Le workflow reste le même : écrivez l’invite, appelez le SDK, validez la réponse avec Apidog, puis déployez.

DEV Community

Comment utiliser l'API Gemini 3.5 Flash ?

Ce que vous obtenez avec l'API Gemini 3.5 Flash

Étape 1 : obtenir une clé API Gemini 3.5 Flash

Option A : Google AI Studio

Option B : Vertex AI pour la production

Étape 2 : installer le SDK

Étape 3 : effectuer un premier appel Flash

Python

Node.js

curl

Réponses en streaming

Python

Node.js

Entrée multimodale avec Flash

Python : image depuis le disque

Appel de fonction et utilisation d’outils avec Flash

Sortie structurée en JSON

Tarification à partir de mai 2026

Tester votre intégration Gemini 3.5 Flash avec Apidog

Gestion des erreurs et limites de débit

Migration de Gemini 3.1 vers 3.5 Flash

Modèles d’implémentation courants

Analyse de documents à contexte long

Boucle d’agent avec appels d’outils

FAQ

Quoi construire en premier

Top comments (0)