DEV Community

Cover image for Comment utiliser l'API Gemini 3.5 Flash ?
Antoine Laurent
Antoine Laurent

Posted on • Originally published at apidog.com

Comment utiliser l'API Gemini 3.5 Flash ?

L'API Gemini 3.5 Flash a été mise en ligne avec le lancement du modèle le 19 mai 2026. Flash est la seule variante de la famille 3.5 disponible aujourd'hui ; Pro sera disponible en juin. Ce guide vous montre comment configurer Flash côté développeur : obtenir une clé, effectuer un premier appel, gérer le multimodal, le streaming, les outils, la sortie JSON et tester l’intégration avec Apidog.

Essayez Apidog aujourd’hui

Si vous avez déjà utilisé l'API Gemini, le changement principal est le nom du modèle : gemini-3.5-flash. Si vous démarrez de zéro, vous pouvez envoyer une requête Flash fonctionnelle en quelques minutes.

Ce que vous obtenez avec l'API Gemini 3.5 Flash

À retenir avant d’intégrer le modèle :

  • gemini-3.5-flash : disponible maintenant, rapide, économique et multimodal
  • Même point d'accès de style OpenAPI : remplacement direct pour les projets qui utilisent déjà Gemini 3 ou 3.1
  • Niveau gratuit sur AI Studio : environ 1 500 requêtes/jour sans carte de crédit

Capacités exposées via l'API Flash :

  • Contexte d'entrée de 1M de tokens, 64K tokens de sortie
  • Entrée texte + image, sortie texte + structurée
  • Appel de fonction natif et utilisation d'outils
  • Réponses en streaming
  • Récupération sur contexte long
  • Raisonnement sur graphiques et documents

Pour les détails de tarification, y compris les tarifs par token et les remises en mode batch, consultez le guide de tarification de Gemini 3.5 Flash.

Étape 1 : obtenir une clé API Gemini 3.5 Flash

Vous avez deux options selon votre usage : AI Studio pour démarrer rapidement, Vertex AI pour la production.

Option A : Google AI Studio

  1. Ouvrez aistudio.google.com
  2. Connectez-vous avec un compte Google
  3. Cliquez sur Obtenir une clé API
  4. Sélectionnez un projet existant ou créez-en un
  5. Cliquez sur Créer une clé API
  6. Copiez la clé et stockez-la dans une variable d’environnement

Exemple :

export GEMINI_API_KEY="votre-cle-api"
Enter fullscreen mode Exit fullscreen mode

Le processus est le même que dans le guide de la clé API Gemini gratuite. La clé fonctionne immédiatement avec gemini-3.5-flash.

Option B : Vertex AI pour la production

Utilisez Vertex AI si vous avez besoin de facturation centralisée, IAM, journaux d’audit et contrôles organisationnels.

  1. Activez l’API Vertex AI dans la Google Cloud Console
  2. Créez un compte de service avec le rôle aiplatform.user
  3. Téléchargez les identifiants JSON
  4. Authentifiez-vous avec :
gcloud auth application-default login
Enter fullscreen mode Exit fullscreen mode

ou configurez le fichier JSON comme identifiant d’application.

La plupart des équipes commencent avec AI Studio, puis migrent vers Vertex AI lorsque les contraintes de production l’exigent.

Étape 2 : installer le SDK

Le SDK officiel Google GenAI est disponible pour Python, Node.js, Go et Java.

# Python
pip install -U google-genai

# Node.js
npm install @google/genai

# Go
go get google.golang.org/genai
Enter fullscreen mode Exit fullscreen mode

Vous pouvez aussi appeler directement l’API REST avec curl, sans SDK.

Étape 3 : effectuer un premier appel Flash

Python

import os
from google import genai

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."
)

print(response.text)
Enter fullscreen mode Exit fullscreen mode

Node.js

import { GoogleGenAI } from "@google/genai";

const ai = new GoogleGenAI({ apiKey: process.env.GEMINI_API_KEY });

const response = await ai.models.generateContent({
  model: "gemini-3.5-flash",
  contents: "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs.",
});

console.log(response.text);
Enter fullscreen mode Exit fullscreen mode

curl

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent" \
  -H "x-goog-api-key: $GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [{
      "parts": [{"text": "Explain how OAuth 2.0 PKCE flow works in 3 short paragraphs."}]
    }]
  }'
Enter fullscreen mode Exit fullscreen mode

À ce stade, l’intégration minimale fonctionne. Vous pouvez ensuite ajouter le streaming, les entrées multimodales, les outils ou la validation JSON.

Réponses en streaming

Le streaming est utile si votre interface doit afficher la réponse progressivement au lieu d’attendre la sortie complète.

Python

stream = client.models.generate_content_stream(
    model="gemini-3.5-flash",
    contents="Write a 5-step tutorial on writing a REST API client in Go."
)

for chunk in stream:
    print(chunk.text, end="", flush=True)
Enter fullscreen mode Exit fullscreen mode

Node.js

const stream = await ai.models.generateContentStream({
  model: "gemini-3.5-flash",
  contents: "Write a 5-step tutorial on writing a REST API client in Go.",
});

for await (const chunk of stream) {
  process.stdout.write(chunk.text);
}
Enter fullscreen mode Exit fullscreen mode

En REST brut, remplacez le suffixe :

:generateContent
Enter fullscreen mode Exit fullscreen mode

par :

:streamGenerateContent
Enter fullscreen mode Exit fullscreen mode

Entrée multimodale avec Flash

Gemini 3.5 Flash accepte les images en plus du texte. C’est utile pour extraire des données depuis des tableaux de bord, graphiques, captures d’écran ou documents visuels.

Python : image depuis le disque

import os
from google import genai
from google.genai import types

client = genai.Client(api_key=os.environ["GEMINI_API_KEY"])

with open("dashboard.png", "rb") as f:
    image_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=image_bytes, mime_type="image/png"),
        "Extract every metric in this dashboard as a JSON object."
    ]
)

print(response.text)
Enter fullscreen mode Exit fullscreen mode

Types MIME pris en charge :

  • image/png
  • image/jpeg
  • image/webp
  • image/heic
  • image/heif

Les PDF et les vidéos peuvent également être utilisés via types.Part.from_uri().

Appel de fonction et utilisation d’outils avec Flash

L’appel d’outils permet au modèle de demander l’exécution d’une fonction externe au lieu de tout générer en texte libre.

Exemple : déclarer un outil météo.

from google.genai import types

weather_tool = types.Tool(
    function_declarations=[{
        "name": "get_current_weather",
        "description": "Get the current weather for a city.",
        "parameters": {
            "type": "object",
            "properties": {
                "city": {"type": "string", "description": "City name"},
                "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
            },
            "required": ["city"]
        }
    }]
)

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="What's the weather in Singapore right now?",
    config=types.GenerateContentConfig(tools=[weather_tool])
)

for part in response.candidates[0].content.parts:
    if part.function_call:
        print(f"Call: {part.function_call.name}")
        print(f"Args: {dict(part.function_call.args)}")
Enter fullscreen mode Exit fullscreen mode

Le modèle renvoie un objet function_call avec :

  • le nom de la fonction
  • les arguments à transmettre

Ensuite, votre application exécute la fonction localement, renvoie le résultat au modèle et continue la conversation. Ce modèle correspond à celui déjà utilisé avec l’API Gemini 3 Flash.

Sortie structurée en JSON

Pour éviter de parser du texte libre, forcez une sortie JSON avec un type MIME et un schéma.

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents="List 3 popular API testing tools with their pricing.",
    config=types.GenerateContentConfig(
        response_mime_type="application/json",
        response_schema={
            "type": "array",
            "items": {
                "type": "object",
                "properties": {
                    "name": {"type": "string"},
                    "price_per_month": {"type": "number"},
                    "free_tier": {"type": "boolean"}
                },
                "required": ["name", "free_tier"]
            }
        }
    )
)

import json
data = json.loads(response.text)
Enter fullscreen mode Exit fullscreen mode

Cette approche réduit les erreurs côté application : pas de regex, moins de retries, validation plus simple.

Tarification à partir de mai 2026

Tarifs à la consommation pour gemini-3.5-flash :

Niveau Entrée Sortie
Standard ~1,50 $ / 1M de tokens ~9,00 $ / 1M de tokens
Entrée mise en cache tarif réduit s.o.
Mode batch ~50% de réduction ~50% de réduction

Pour les charges de travail par lots, le mode batch de l'API Gemini offre une réduction de 50 % sur les tâches qui ne nécessitent pas une latence en temps réel.

Pour le calcul complet de la tarification, y compris les scénarios de coûts pour SaaS et boucles d’agents, consultez la ventilation de la tarification Flash. Pour la référence officielle, consultez la tarification de l'API Gemini Developer.

Tester votre intégration Gemini 3.5 Flash avec Apidog

Un appel SDK fonctionnel ne suffit pas pour une intégration de production. Vous devez aussi tester :

  • les fragments de streaming
  • la validation des appels d’outils
  • les charges utiles multimodales
  • les retries
  • les erreurs HTTP
  • les limites de débit
  • la forme des réponses JSON

Apidog permet de tester toute la surface de l’API Gemini Flash dans un seul espace de travail :

  • Enregistrer le point d'accès Flash comme requête : collez l’URL complète, ajoutez x-goog-api-key, puis envoyez la requête
  • Comparer plusieurs versions de modèle : remplacez gemini-3.5-flash par gemini-3-flash dans la même requête
  • Streamer les réponses : visualisez les fragments au fur et à mesure de leur arrivée
  • Valider le JSON : ajoutez des assertions pour détecter les dérives de schéma
  • Simuler le point d'accès Flash : testez votre code aval sans consommer de quota
  • Construire des scénarios d’agents : enchaînez plusieurs appels Flash et validez les appels d’outils entre chaque étape

Pour démarrer :

  1. Téléchargez Apidog
  2. Créez une nouvelle requête
  3. Collez l’URL REST de Flash
  4. Ajoutez l’en-tête x-goog-api-key
  5. Importez l’extrait curl de cet article
  6. Envoyez la requête et inspectez la réponse

Gestion des erreurs et limites de débit

Les codes HTTP importants :

  • 400 : requête invalide, souvent un tableau contents mal formé ou un type MIME non pris en charge
  • 401 : clé API invalide
  • 403 : quota épuisé ou modèle non activé
  • 429 : limite de débit atteinte
  • 500/503 : erreur côté serveur, à réessayer avec temporisation exponentielle

Ajoutez une boucle de retry autour de vos appels :

import time
from google import genai

def call_with_retry(client, model, prompt, max_retries=3):
    for attempt in range(max_retries):
        try:
            return client.models.generate_content(
                model=model,
                contents=prompt
            )
        except Exception:
            if attempt == max_retries - 1:
                raise
            time.sleep(2 ** attempt)
Enter fullscreen mode Exit fullscreen mode

Les quotas du niveau gratuit sont réinitialisés quotidiennement : environ 15 requêtes par minute et 1 500 par jour sur Flash. Les quotas de production sont réinitialisés par minute et par jour.

Pour les tâches à haut débit, évaluez le mode batch ou prévoyez une solution de repli vers Gemini 3 Flash lorsque les limites sont atteintes.

Migration de Gemini 3.1 vers 3.5 Flash

Dans la plupart des projets, la migration consiste à changer le nom du modèle.

# Avant
model="gemini-3.1-pro"  # ou gemini-3.1-flash

# Après
model="gemini-3.5-flash"
Enter fullscreen mode Exit fullscreen mode

Après le changement, vérifiez :

  1. Schémas d’outils : réexécutez vos tests de function calling
  2. Streaming UI : adaptez l’interface si les fragments arrivent plus vite
  3. Budgets de tokens : conservez vos limites, mais surveillez les sorties
  4. Refus et garde-fous : comparez les réponses sur vos cas limites

Pour un guide plus détaillé, le guide de l'API Gemini 3.1 Pro couvre le modèle SDK et reste transférable.

Modèles d’implémentation courants

Analyse de documents à contexte long

with open("large_report.pdf", "rb") as f:
    pdf_bytes = f.read()

response = client.models.generate_content(
    model="gemini-3.5-flash",
    contents=[
        types.Part.from_bytes(data=pdf_bytes, mime_type="application/pdf"),
        "Summarize the financial outlook from this report in 5 bullet points."
    ]
)
Enter fullscreen mode Exit fullscreen mode

Le contexte de 1M de tokens de Flash permet de traiter des PDF volumineux sans découpage manuel dans de nombreux cas.

Boucle d’agent avec appels d’outils

conversation = [
    {
        "role": "user",
        "parts": [{"text": "Book me a flight to Tokyo"}]
    }
]

while True:
    response = client.models.generate_content(
        model="gemini-3.5-flash",
        contents=conversation,
        config=types.GenerateContentConfig(
            tools=[flight_search_tool, booking_tool]
        )
    )

    part = response.candidates[0].content.parts[0]

    if not part.function_call:
        print(part.text)
        break

    result = execute_tool(part.function_call)

    conversation.append({
        "role": "model",
        "parts": [part]
    })

    conversation.append({
        "role": "user",
        "parts": [{"function_response": result}]
    })
Enter fullscreen mode Exit fullscreen mode

Ce modèle est utile pour les agents qui doivent sélectionner un outil, exécuter une action externe, puis continuer la conversation avec le résultat.

FAQ

Existe-t-il un niveau gratuit pour l'API Gemini 3.5 Flash ?

Oui, via Google AI Studio, avec des quotas quotidiens d’environ 1 500 requêtes/jour. Aucune carte de crédit requise.

Flash prend-il en charge les points d'accès compatibles OpenAI ?

Oui. Google expose un adaptateur compatible OpenAI à l’adresse /v1beta/openai/. Vous pouvez configurer base_url dans un SDK OpenAI et utiliser votre clé Gemini. Le nom du modèle reste gemini-3.5-flash.

Puis-je utiliser Flash avec LangChain ou LlamaIndex ?

Oui. Les deux disposent d’intégrations Gemini natives. Passez model="gemini-3.5-flash" dans leurs wrappers respectifs.

Quand Gemini 3.5 Pro sera-t-il disponible ?

Juin 2026 selon l’annonce de lancement de Google. D’ici là, Flash est la seule variante 3.5 disponible.

Quelle est la taille d'image maximale pour Flash ?

La recommandation est 3072×3072. Les images plus grandes sont rééchantillonnées. Pour les workflows OCR, consultez le flux de travail OCR de Gemini 2.0 Flash.

Comment tester les points d'accès de streaming dans Apidog ?

Ouvrez la requête, utilisez :streamGenerateContent comme suffixe du point d’accès, puis envoyez la requête. Apidog affiche les fragments SSE au fur et à mesure.

Où consulter les journaux de l'API ?

Dans AI Studio sous Activité, ou dans Vertex AI sous Explorateur de journaux pour les déploiements de production.

Quoi construire en premier

Projets simples à lancer avec Flash :

  • Robot Q&A PDF : injectez un PDF dans le contexte, posez des questions, retournez des réponses citées
  • Pipeline graphique-vers-JSON : envoyez une capture de tableau de bord, extrayez des métriques structurées
  • Agent de support client : connectez l’appel de fonction à votre CRM
  • Assistant de révision de code : analysez des diffs multi-fichiers avec sortie structurée
  • Agent de recherche interne : combinez le contexte long avec des appels vers vos API internes

Le workflow reste le même : écrivez l’invite, appelez le SDK, validez la réponse avec Apidog, puis déployez.

Top comments (0)