Antoine Laurent

Posted on May 20 • Originally published at apidog.com

Gemini 3.5 Flash : Le Nouveau Modèle Rapide de Google Expliqué

Google a lancé Gemini 3.5 Flash le 19 mai 2026. C’est la variante rapide et économique de la famille Gemini 3.5, et le seul modèle 3.5 utilisable dès maintenant. Gemini 3.5 Pro est annoncé pour juin 2026, mais Flash est déjà le modèle à tester pour les charges de travail de production : agents, automatisation, codage, multimodal et streaming.

Essayez Apidog aujourd’hui

Gemini 3.5 Flash vise les workloads qui tournent réellement en 2026 : boucles d’agents longues, automatisation de terminaux, codage multifichier, analyse de documents multimodaux et chat en continu. D’après Google, il génère environ 4 fois plus vite que les autres modèles de pointe côté jetons de sortie, avec un coût par tâche inférieur à la moitié.

Ce guide résume ce qui change, comment l’appeler, comment l’évaluer, et comment l’intégrer dans une pile de test API avec Apidog.

Faits saillants sur Gemini 3.5 Flash

Date de sortie : 19 mai 2026
Variante disponible : Gemini 3.5 Flash
Gemini 3.5 Pro : annoncé pour juin 2026
Fenêtre contextuelle : 1M de jetons en entrée, 64K en sortie
Modalités : texte, images, code, génération graphique
Benchmarks clés :
- 76,2 % sur Terminal-Bench 2.1
- 84,2 % sur CharXiv Reasoning
- 83,6 % sur MCP Atlas
- 1656 Elo sur GDPval-AA
Vitesse : environ 4 fois plus rapide en jetons de sortie/seconde que les autres modèles de pointe
Coût : moins de la moitié du coût de modèles comparables pour les tâches d’agent
Nom API : gemini-3.5-flash
Accès : application Gemini, mode IA dans la recherche, Google Antigravity, API Gemini, AI Studio, Android Studio, Gemini Enterprise

Pour les détails de prix, les limites gratuites et les scénarios de coûts réels, consultez le guide de tarification Gemini 3.5 Flash.

Ce qui change par rapport à Gemini 3 et 3.1

Gemini 3.5 Flash s’appuie sur Gemini 3 Flash et Gemini 3.1 Pro, avec cinq améliorations concrètes.

1. Les agents tiennent mieux sur la durée

Flash gère mieux les chaînes de tâches longues :

meilleur suivi d’état ;
appels d’outils dans le bon ordre ;
dispatch de sous-agents plus robuste ;
moins de boucles inutiles sur une même étape.

C’est important si vous construisez un agent qui doit exécuter plusieurs appels API, lire des fichiers, corriger une erreur, puis reprendre le workflow.

2. Le code généré est plus exploitable

Flash progresse surtout sur :

les refactorisations multifichiers ;
les tâches longues via CLI ;
les modifications progressives dans une base de code ;
les assistants de développement intégrés dans des outils.

3. La génération graphique devient directement utile

Le modèle peut produire des interfaces web, des SVG et des diagrammes intégrés sans passer systématiquement par un modèle image séparé.

Exemples de prompts utiles :

Génère un dashboard HTML/CSS/JS pour visualiser la latence moyenne, le taux d’erreur et le coût par requête d’une API LLM.

Crée un diagramme SVG expliquant le flux entre client, API Gateway, service d’agent, outil externe et base de données.

4. La sortie est plus rapide

Google annonce environ 4 fois plus de jetons/seconde en sortie que les autres modèles de pointe. Pour les développeurs, cela change surtout les UX de streaming :

réponses visibles plus tôt ;
chat plus fluide ;
génération de code plus rapide ;
agents moins coûteux en temps d’attente.

5. Les garde-fous sont élargis

Google mentionne des mesures de sécurité cybernétiques et CBRN renforcées, ainsi que des outils d’interprétabilité pour expliquer certains refus ou redirections.

Le mouvement est clair : Google optimise Flash pour les workloads d’agents en production, pas uniquement pour le chat. C’est la même direction que celle prise par OpenAI et Anthropic avec GPT-5.5 et Claude Opus 4.7.

Benchmarks de Gemini 3.5 Flash

Chiffres publiés par Google :

Benchmark	Ce qu’il teste	Gemini 3.5 Flash
Terminal-Bench 2.1	Flux de travail CLI à long terme	76,2 %
MCP Atlas	Coordination multi-outils	83,6 %
CharXiv Reasoning	Interprétation de graphiques et diagrammes	84,2 %
GDPval-AA	Valeur agentique générale	1656 Elo
MRCR v2, contexte 1M	Récupération de contexte long	En tête du tableau de Google

Flash ressort particulièrement bien sur :

le raisonnement sur graphiques ;
les agents multi-outils ;
la récupération d’information dans un contexte long.

Il ne domine pas partout. Sur SWE-Bench Verified pur, la compétition reste serrée entre Opus 4.7 et GPT-5.5. Si votre seul KPI est la correction de bugs en un seul passage, ces modèles restent très compétitifs. Si votre KPI est une longue exécution d’agent à coût réduit, Flash devient intéressant.

Pour une comparaison plus détaillée, consultez Gemini 3.5 Flash vs GPT-5.5 vs Opus 4.7.

La famille Gemini 3.5

Gemini 3.5 Flash

Flash est disponible via :

AI Studio ;
API Gemini ;
application Gemini ;
mode IA dans la recherche ;
Antigravity ;
Android Studio ;
Gemini Enterprise.

Les prix annoncés au lancement sont d’environ :

1,50 $ / 1M jetons d’entrée ;
9,00 $ / 1M jetons de sortie.

C’est plus élevé que 3.1 Flash-Lite, mais toujours nettement inférieur aux modèles concurrents de niveau Pro. Pour le batch, l’entrée en cache et les tarifs Vertex, consultez le guide de tarification complet.

Flash est particulièrement adapté à :

boucles d’agents à haut débit ;
compréhension de graphiques et documents ;
scripts de test avec Apidog quand la latence compte ;
interfaces de chat en streaming ;
analyse de documents jusqu’à 1M de jetons sans découpage manuel.

Gemini 3.5 Pro

Gemini 3.5 Pro est annoncé, mais pas encore livré. Google le positionne comme la variante agentique haut de gamme : tâches autonomes longues, recherches approfondies, meilleurs scores de classement.

Tant que Pro n’est pas disponible, Flash est la variante à tester et intégrer.

Et Gemini 3.5 Nano ?

Google n’a pas lancé de variante 3.5 Nano. L’inférence sur appareil repose encore sur 3.1 Flash-Lite. Une annonce 3.5 Nano pourrait arriver plus près d’un prochain cycle Pixel.

Où utiliser Gemini 3.5 Flash

Six surfaces ont été livrées au lancement :

Application Gemini : accès mondial, niveaux gratuit et payant.
Mode IA dans la recherche Google : réponses et suivis.
Google Antigravity : plateforme d’agents pour automatisation utilisateur.
API Gemini : point d’entrée développeur via AI Studio.
Android Studio : assistance au codage pour les développeurs Android.
Gemini Enterprise + plateforme d’agents : runtime d’agents géré pour les organisations.

La nouvelle surface la plus notable est Gemini Spark, un agent personnel qui fonctionne 24h/24 et 7j/7 sur votre compte. Spark utilise Flash en coulisses et se connecte au contexte Gmail, Agenda et Drive.

Les agents d’information dans la recherche sont aussi nouveaux : ils suivent des sujets et regroupent des mises à jour sans que vous relanciez manuellement les requêtes.

Démarrer avec Gemini 3.5 Flash

Vous avez quatre chemins principaux.

1. Utiliser l’application Gemini

Allez sur gemini.google.com, choisissez 3.5 Flash dans le sélecteur de modèle, puis testez vos cas d’usage :

recherche ;
rédaction ;
génération de code ;
analyse d’image ;
résumé de document.

C’est le chemin le plus simple pour valider rapidement la qualité du modèle.

2. Utiliser Google AI Studio

Allez sur ai.google.dev, connectez-vous, puis générez une clé API. Flash est disponible sur le niveau gratuit avec environ 1 500 requêtes par jour au lancement.

Si vous avez déjà utilisé l’API Google Gemini, le schéma reste similaire :

créer une clé API ;
définir GEMINI_API_KEY ;
utiliser le modèle gemini-3.5-flash ;
envoyer la requête.

Exemple d’environnement :

export GEMINI_API_KEY="votre_cle_api"

Consultez aussi le guide de clé API Gemini gratuite ou le guide gratuit spécifique à Flash.

3. Utiliser l’API Gemini en production

En production, utilisez le même modèle avec un compte facturé. Le nom du modèle est :

gemini-3.5-flash

Exemple de structure de test avec curl :

curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Explique comment migrer une API REST vers un workflow agentique testé automatiquement."
          }
        ]
      }
    ]
  }'

Pour des exemples complets en Python, Node et curl, ainsi que les modèles de streaming, d’appel d’outils et de multimodal, consultez Comment utiliser l’API Gemini 3.5 Flash.

Lorsque vous intégrez Flash dans votre pile, testez le point de terminaison comme n’importe quelle API critique. Apidog permet de gérer les requêtes, réponses, scénarios de streaming et charges utiles multimodales dans un même espace de travail.

4. Utiliser Gemini Enterprise

Pour les organisations, Gemini Enterprise ajoute :

journaux d’audit ;
résidence des données ;
runtime de plateforme d’agents ;
intégration gérée pour les équipes.

C’est généralement le chemin à considérer après un prototype validé via l’API développeur.

Cas d’usage où Gemini 3.5 Flash est solide

Boucles d’agents longues à faible coût

Le score MCP Atlas de 83,6 % suggère une meilleure coordination multi-outils. En pratique, cela aide pour des workflows comme :

lire une demande utilisateur ;
appeler une API ;
analyser la réponse ;
corriger une erreur ;
appeler un autre outil ;
produire une sortie finale structurée.

Raisonnement sur graphiques et documents

Avec CharXiv à 84,2 %, Flash devient pertinent pour :

rapports PDF ;
documents avec graphiques ;
tableaux de bord exportés ;
schémas techniques ;
analyse d’images contenant du texte ou des diagrammes.

Génération d’interfaces interactives

Vous pouvez demander directement :

Génère une page HTML avec un graphique de coût par requête, un tableau des erreurs API et un filtre par modèle LLM.

Le bond de qualité graphique par rapport à 3.1 Flash-Lite est l’une des améliorations les plus visibles.

Workloads sensibles au coût

Google présente Flash comme coûtant moins de la moitié des autres modèles de pointe pour les tâches d’agent. Même avec prudence, le coût par tâche devient intéressant pour des agents longs comparés à Opus 4.7 ou GPT-5.5.

Les détails sont dans l’analyse des prix.

Limites à connaître

Gemini 3.5 Flash n’est pas une solution universelle.

SWE-Bench Verified pur : Opus 4.7 reste devant avec 87,6 % sur les benchmarks de correction de bugs isolés.
Voix : la pile vocale Gemini est séparée. Pour ce cas, comparez avec Grok Voice vs GPT-Realtime.
Écosystème d’outils : OpenAI et Anthropic ont encore une avance sur certains adaptateurs tiers. Google rattrape avec Antigravity, mais l’écosystème reste plus jeune.

Tester correctement Gemini 3.5 Flash

Avant de router du trafic production vers Flash, construisez un petit banc d’évaluation.

Étape 1 : définir un jeu de prompts représentatifs

Incluez les vrais cas de votre application :

- prompts courts ;
- prompts longs ;
- appels d’outils ;
- entrées multimodales ;
- erreurs attendues ;
- sorties JSON strictes ;
- scénarios de streaming.

Étape 2 : comparer avec votre modèle actuel

Exécutez les mêmes prompts sur :

gemini-3.5-flash ;
votre modèle actuel ;
éventuellement un modèle de référence.

Étape 3 : mesurer ce qui compte

Mesurez au minimum :

latence ;
coût en jetons ;
succès de la tâche aval ;
stabilité du schéma de réponse ;
exactitude des appels d’outils ;
taux de refus ;
dérives entre versions mineures.

Étape 4 : automatiser les tests API

Avec Apidog, vous pouvez enregistrer une suite de tests pour les points de terminaison Gemini Flash, y compris le streaming. Cela permet de rejouer les mêmes prompts, comparer les réponses et vérifier les charges utiles de bout en bout.

Vous pouvez télécharger Apidog pour configurer ces tests localement.

Conseils de migration de Gemini 3.1 vers 3.5 Flash

Si vous utilisez déjà Gemini 3.1, la migration ressemble souvent à un simple changement de nom de modèle.

Avant :

gemini-3.1-flash

Après :

gemini-3.5-flash

Points à vérifier :

Budgets de jetons : 1M en entrée / 64K en sortie reste stable.
Schémas d’outils : les définitions de fonctions existantes doivent être retestées, mais le modèle reste compatible.
Streaming : la sortie étant plus rapide, vérifiez que votre UI peut suivre.
Coûts : recalculez vos projections avec le guide de tarification Flash.
Sécurité : les réponses de refus peuvent changer ; relancez vos tests red team.

Pour plus de détails SDK, consultez le guide de l’API Google Gemini 3.

FAQ

Quand Gemini 3.5 Pro sera-t-il disponible ?

Google a annoncé « un déploiement le mois prochain » le 19 mai 2026. Il faut donc s’attendre à une disponibilité en juin 2026 via AI Studio, l’API Gemini et Gemini Enterprise. D’ici là, Flash est la seule variante 3.5 appelable.

Gemini 3.5 Flash est-il gratuit ?

Oui, avec quotas quotidiens. L’application Gemini et AI Studio permettent d’utiliser Flash sans paiement initial. Consultez le guide gratuit Flash et Obtenir l’API Gemini illimitée gratuite.

Gemini 3.5 Flash prend-il en charge l’appel de fonctions ?

Oui. L’appel d’outils et le dispatch de sous-agents sont des cas d’usage clés. Le score MCP Atlas de 83,6 % est l’indicateur principal cité.

Comment Flash se compare-t-il à Opus 4.7 et GPT-5.5 ?

Flash est fort sur :

coût ;
vitesse de sortie ;
raisonnement sur graphiques ;
agents multi-outils.

Opus 4.7 reste très fort sur SWE-Bench Pro et l’écriture longue. GPT-5.5 reste compétitif sur l’efficacité en jetons. Consultez la comparaison à trois.

Peut-on exécuter Gemini 3.5 Flash localement ?

Non. Il n’existe pas de version open-weights. Pour l’inférence locale, consultez plutôt les meilleurs LLM locaux de 2026.

Gemini 3.5 Flash fonctionne-t-il avec Cursor ?

Oui, via l’API Gemini standard. Le schéma est similaire à Gemini 3.0 Pro avec Cursor.

Quel est le nom du modèle API ?

Utilisez :

gemini-3.5-flash

Ce que cela implique pour votre pile

Si vous avez déjà une fonctionnalité IA en production :

Vous utilisez 3.1 Flash : testez 3.5 Flash en parallèle. Le gain de vitesse en streaming peut justifier la migration.
Vous utilisez Opus 4.7 ou GPT-5.5 : comparez coût, latence et qualité sur vos propres prompts. Pour les agents longs, Flash peut réduire le coût.
Vous construisez une nouvelle boucle d’agents : commencez par Flash, puis comparez avec un modèle plus coûteux uniquement si nécessaire.
Vous avez une charge multimodale lourde : testez Flash sur vos propres documents et graphiques.

Dans tous les cas, traitez le modèle comme un composant de pipeline. Testez les prompts, les appels d’outils, les sorties JSON, le streaming et les erreurs. Apidog couvre la partie test API pour Gemini ; la conception des prompts, le câblage des outils et l’évaluation métier restent à votre charge.