Google lanzó Gemini 3.5 Flash el 19 de mayo de 2026. Es la variante rápida y de menor costo de la familia Gemini 3.5, y por ahora es el único modelo 3.5 disponible para uso real. Gemini 3.5 Pro está anunciado para junio de 2026, pero si estás construyendo hoy, Flash es el modelo que puedes integrar.
Gemini 3.5 Flash está pensado para cargas de trabajo prácticas: agentes con bucles largos, automatización por terminal, refactorización de múltiples archivos, análisis multimodal de documentos y chat en streaming. Google lo posiciona como un modelo con salida aproximadamente 4 veces más rápida que otros modelos de vanguardia y con un costo por tarea inferior a la mitad en escenarios comparables.
En esta guía verás qué cambia en Gemini 3.5 Flash, cómo acceder al modelo, qué benchmarks importan y cómo probarlo dentro de tu stack, incluyendo Apidog para validar endpoints de IA.
Datos rápidos sobre Gemini 3.5 Flash
- Fecha de lanzamiento: 19 de mayo de 2026
- Variante: Gemini 3.5 Flash
- Gemini 3.5 Pro: anunciado para junio de 2026
- Ventana de contexto: 1M tokens de entrada, 64K tokens de salida
- Modalidades: texto, imágenes, código y generación de gráficos
-
Benchmarks destacados:
- 76.2% en Terminal-Bench 2.1
- 84.2% en CharXiv Reasoning
- 83.6% en MCP Atlas
- 1656 Elo en GDPval-AA
- Velocidad: ~4 veces más rápido en tokens/segundo de salida que otros modelos de vanguardia
- Costo: menos de la mitad del costo de modelos comparables para tareas de agente
-
Nombre del modelo en API:
gemini-3.5-flash -
Acceso:
- Aplicación Gemini
- Modo IA en Búsqueda
- Google Antigravity
- API de Gemini
- AI Studio
- Android Studio
- Gemini Enterprise
Para revisar precios, límites del nivel gratuito y escenarios de costo, consulta la guía de precios de Gemini 3.5 Flash.
Qué cambia frente a Gemini 3 y 3.1
Gemini 3.5 Flash continúa la línea de Gemini 3 Flash y Gemini 3.1 Pro, pero con mejoras más útiles para producción.
1. Mejor ejecución agéntica
Flash maneja cadenas de tareas más largas con menos pérdida de contexto. Esto importa si tu flujo incluye:
- selección de herramientas,
- llamadas sucesivas a APIs,
- recuperación ante errores,
- subagentes,
- pasos condicionales.
Ejemplo de patrón típico:
Usuario -> Agente -> Herramienta A -> Resultado
-> Herramienta B -> Resultado
-> Validación
-> Respuesta final
Con modelos anteriores, estos flujos suelen fallar por orden incorrecto de herramientas, pérdida de instrucciones o repetición de pasos. Flash apunta precisamente a reducir esos fallos.
2. Mejor salida de código
Flash mejora en tareas como:
- refactorización multiarchivo,
- generación de scripts CLI,
- edición incremental de código,
- explicación de bases de código largas,
- automatización de pruebas.
Si lo usas para desarrollo, evalúalo con prompts que representen tareas reales de tu repo, no solo snippets aislados.
3. Generación de gráficos integrada
El modelo puede producir interfaces web interactivas, SVGs y diagramas en línea sin pasar por un modelo de imagen separado.
Ejemplo de prompt útil:
Genera un dashboard HTML con tres tarjetas de métricas, un gráfico SVG de barras y una tabla de errores recientes. Usa CSS inline y no dependas de librerías externas.
4. Salida más rápida
La mejora de velocidad cambia cómo diseñas una UI de streaming. Si tu frontend renderiza token por token, revisa:
- throttling de renderizado,
- buffering parcial,
- manejo de scroll,
- cancelación de requests,
- timeouts del cliente.
5. Barreras de seguridad más estrictas
Google indica mejoras en salvaguardas cibernéticas y CBRN, además de herramientas de interpretabilidad para explicar rechazos o redirecciones. En producción, esto significa que debes volver a ejecutar tus pruebas de seguridad y comparar patrones de rechazo frente a tu modelo actual.
Benchmarks de Gemini 3.5 Flash
Los números publicados por Google muestran que Flash compite bien en tareas agénticas y multimodales:
| Benchmark | Qué evalúa | Gemini 3.5 Flash |
|---|---|---|
| Terminal-Bench 2.1 | Flujos de trabajo CLI de largo alcance | 76.2% |
| MCP Atlas | Coordinación multi-herramienta | 83.6% |
| CharXiv Reasoning | Interpretación de gráficos y diagramas | 84.2% |
| GDPval-AA | Valor agéntico general | 1656 Elo |
| MRCR v2, contexto 1M | Recuperación de contexto largo | Cima de la tabla de Google |
Donde Flash destaca:
- razonamiento sobre gráficos,
- trabajo agéntico con múltiples herramientas,
- recuperación de contexto largo,
- tareas con latencia visible para usuarios.
Donde no domina completamente:
- corrección de bugs de un solo intento,
- benchmarks de ingeniería de software puros,
- ecosistemas de herramientas de terceros más maduros.
SWE-Bench Verified sigue siendo una carrera ajustada entre Claude Opus 4.7 y GPT-5.5. Si tu métrica principal es resolver issues aislados con un solo intento, esos modelos pueden seguir siendo mejores. Si te importa ejecutar agentes largos con menor costo, Flash es más atractivo.
Para una comparación más amplia, revisa Gemini 3.5 Flash vs GPT-5.5 vs Opus 4.7.
Familia de modelos Gemini 3.5
Gemini 3.5 Flash
Flash es la variante disponible ahora. Puedes usarla desde:
- AI Studio,
- API de Gemini,
- aplicación Gemini,
- Modo IA en Búsqueda,
- Antigravity,
- Android Studio,
- Gemini Enterprise.
El precio reportado el día del lanzamiento ronda los $1.50 por cada 1M tokens de entrada y $9.00 por cada 1M tokens de salida. Es más alto que 3.1 Flash-Lite, pero sigue por debajo de modelos Pro comparables.
Casos de uso recomendados:
- agentes con bucles largos,
- análisis de documentos visuales,
- chat en streaming,
- pipelines con contexto largo,
- pruebas de endpoints de IA con Apidog,
- automatización con herramientas externas.
Gemini 3.5 Pro
Gemini 3.5 Pro está anunciado para junio de 2026. Google lo posiciona como la variante insignia para:
- trabajo autónomo de varias horas,
- investigación profunda,
- tareas agénticas de máxima dificultad,
- escenarios donde el costo es menos importante que la calidad.
Hasta que Pro esté disponible, Flash es la opción práctica para empezar a construir.
¿Qué pasa con Nano?
Google no lanzó una variante 3.5 Nano. La inferencia en dispositivo sigue usando la línea 3.1 Flash-Lite. Es razonable esperar novedades cerca de un ciclo futuro de Pixel, pero no hay una variante 3.5 Nano disponible ahora.
Dónde puedes usar Gemini 3.5 Flash
Gemini 3.5 Flash se lanzó en seis superficies principales:
- Aplicación Gemini: chat para usuarios finales.
- Modo IA en Búsqueda de Google: respuestas y seguimientos.
- Google Antigravity: plataforma de agentes para automatización.
- API de Gemini: integración para desarrolladores mediante AI Studio.
- Android Studio: asistencia de codificación en el IDE.
- Gemini Enterprise + Plataforma de Agentes: entorno gestionado para organizaciones.
También aparece Gemini Spark, un agente personal que se ejecuta 24/7 en tu cuenta y se conecta con contexto de Gmail, Calendar y Drive.
Los agentes de información dentro de Búsqueda también son nuevos: pequeños ayudantes autónomos que recopilan actualizaciones sobre temas que sigues sin repetir consultas manuales.
Cómo empezar con Gemini 3.5 Flash
Tienes cuatro rutas principales. Elige según tu caso de uso.
1. Usar la aplicación Gemini
Abre gemini.google.com, selecciona 3.5 Flash en el selector de modelos y empieza a probar.
Úsalo para:
- investigación rápida,
- escritura,
- análisis de imágenes,
- generación de código,
- brainstorming técnico,
- prototipos de prompts.
Esta ruta no sirve para pruebas reproducibles de API, pero sí para validar si el modelo entiende bien tus tareas.
2. Usar Google AI Studio
Entra en ai.google.dev, inicia sesión y genera una clave de API. Flash está disponible en el nivel gratuito con una cuota diaria de aproximadamente 1,500 solicitudes en el lanzamiento.
Si ya usaste la API de Google Gemini, el flujo es el mismo:
- genera una API key,
- configura
GEMINI_API_KEY, - usa el modelo
gemini-3.5-flash, - envía el prompt,
- registra latencia, tokens y respuesta.
Ejemplo de variable de entorno:
export GEMINI_API_KEY="tu_api_key"
Consulta también la guía de claves de API de Gemini gratuitas o la guía gratuita específica de Flash.
3. Usar la API de Gemini en producción
En producción, usa el mismo modelo con una cuenta facturada. La integración depende del SDK o del endpoint REST, pero el cambio clave es el nombre del modelo:
gemini-3.5-flash
Ejemplo conceptual con curl:
curl -X POST "https://generativelanguage.googleapis.com/v1beta/models/gemini-3.5-flash:generateContent?key=$GEMINI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [
{
"parts": [
{
"text": "Resume este documento y devuelve una lista de acciones técnicas."
}
]
}
]
}'
Para ejemplos completos en Python, Node y curl, además de streaming, herramientas y multimodalidad, revisa Cómo usar la API de Gemini 3.5 Flash.
Cuando conectes el modelo a tu stack, prueba el endpoint como cualquier otra dependencia crítica. Apidog permite validar requests y responses REST o streaming en un mismo workspace, útil para revisar llamadas a herramientas y payloads multimodales de extremo a extremo.
4. Usar Gemini Enterprise
Para organizaciones, Gemini Enterprise agrega:
- registros de auditoría,
- residencia de datos,
- gestión centralizada,
- runtime de agentes,
- controles organizacionales.
Este camino tiene sentido si ya validaste el caso de uso con AI Studio o la API para desarrolladores y necesitas pasar a un entorno gestionado.
Para qué usar Gemini 3.5 Flash
Después de las primeras pruebas públicas, los casos más claros son estos.
Agentes largos de bajo costo
Flash es útil cuando un agente debe ejecutar múltiples pasos:
1. Leer una solicitud
2. Elegir una herramienta
3. Llamar una API
4. Interpretar el resultado
5. Decidir el siguiente paso
6. Generar una respuesta final
La puntuación de 83.6% en MCP Atlas apunta a mejor coordinación multi-herramienta. En la práctica, esto significa menos errores como:
- llamar la herramienta incorrecta,
- repetir una llamada ya hecha,
- perder el estado del flujo,
- ignorar un resultado intermedio.
Análisis de gráficos y documentos
CharXiv al 84.2% es relevante para pipelines con:
- reportes en PDF,
- dashboards exportados,
- imágenes con tablas,
- diagramas técnicos,
- gráficos de métricas.
Prompt recomendado para evaluar:
Analiza el gráfico adjunto. Extrae las tendencias principales, identifica anomalías y devuelve una tabla Markdown con métrica, valor aproximado e interpretación.
Generación interactiva de UI
Flash puede generar HTML, CSS y SVG en una sola pasada.
Ejemplo:
Crea un dashboard HTML sin dependencias externas. Debe incluir:
- 3 tarjetas de KPIs
- 1 gráfico SVG de líneas
- 1 tabla de eventos
- CSS responsive
Devuelve solo el HTML.
Producción sensible al costo
Google afirma que Flash cuesta menos de la mitad que otros modelos de vanguardia para tareas agénticas. Aunque debes validar tu propio costo por tarea, el modelo es una buena opción si tu sistema hace muchas llamadas o ejecuta agentes largos.
Compara contra Claude Opus 4.7 o GPT-5.5 usando tus datos reales. Los precios detallados están en el desglose de precios de Gemini 3.5 Flash.
Dónde Flash todavía no es ideal
Flash no reemplaza todo. Ten en cuenta estos límites.
SWE-Bench Verified puro
Opus 4.7 mantiene una puntuación del 87.6% en benchmarks de corrección de errores aislados. Si tu único KPI es resolver issues de código de un solo intento, prueba Flash, pero compáralo contra modelos más fuertes en programación pura.
Voz
La pila de voz de Gemini es separada. Para ese tipo de carga, compara con alternativas como Grok Voice vs GPT-Realtime.
Ecosistema de herramientas
OpenAI y Anthropic llevan ventaja en adaptadores de terceros. Google está avanzando con Antigravity, pero el ecosistema todavía es más joven.
Cómo probar Gemini 3.5 Flash correctamente
No migres solo porque el benchmark es alto. Crea un arnés de evaluación pequeño y repetible.
Paso 1: define prompts representativos
Incluye prompts reales de tu producto:
[
{
"id": "support_summary",
"prompt": "Resume este ticket y clasifica la prioridad."
},
{
"id": "tool_call",
"prompt": "Busca el estado del pedido 12345 usando la herramienta disponible."
},
{
"id": "code_refactor",
"prompt": "Refactoriza este módulo para separar validación y persistencia."
}
]
Paso 2: ejecuta contra tu modelo actual y Flash
Compara:
- latencia total,
- tokens de entrada,
- tokens de salida,
- costo estimado,
- éxito de la tarea,
- errores de formato,
- cumplimiento de esquema.
Paso 3: valida el contrato de respuesta
Si esperas JSON, fuerza JSON y valida esquema:
{
"type": "object",
"required": ["summary", "priority", "next_actions"],
"properties": {
"summary": { "type": "string" },
"priority": { "type": "string", "enum": ["low", "medium", "high"] },
"next_actions": {
"type": "array",
"items": { "type": "string" }
}
}
}
Paso 4: prueba streaming
En streaming, mide:
- tiempo hasta el primer token,
- tokens por segundo,
- estabilidad de conexión,
- comportamiento al cancelar,
- consistencia de respuesta parcial.
Para estos casos, Apidog puede guardar suites de pruebas para endpoints de Flash, incluyendo streaming. Puedes reproducir los mismos prompts contra versiones distintas del modelo y comparar salidas. Si quieres configurarlo localmente, puedes descargar Apidog.
Migrar de Gemini 3.1 a Gemini 3.5 Flash
Si ya usas Gemini 3.1, la migración suele ser un cambio de cadena de modelo:
- model = "gemini-3.1-flash"
+ model = "gemini-3.5-flash"
Aun así, valida estos puntos antes de mover tráfico:
- Tokens: la ventana se mantiene en 1M de entrada y 64K de salida.
- Herramientas: las definiciones de funciones deberían mantenerse estables.
- Streaming: la salida más rápida puede requerir throttling en frontend.
- Costos: recalcula proyecciones con la guía de precios de Flash.
- Seguridad: los rechazos pueden cambiar; vuelve a ejecutar tus pruebas de red team.
- Observabilidad: registra latencia, tokens, errores y motivos de fallback.
Para más detalles de SDK, consulta la guía de la API de Google Gemini 3.
Preguntas frecuentes
¿Cuándo estará disponible Gemini 3.5 Pro?
Google anunció su lanzamiento para el mes siguiente al 19 de mayo de 2026. Se espera disponibilidad general en junio de 2026 mediante AI Studio, Gemini API y Gemini Enterprise. Hasta entonces, Flash es la única variante 3.5 disponible.
¿Gemini 3.5 Flash es gratuito?
Sí, con cuotas diarias. La aplicación Gemini y AI Studio permiten usar Flash sin pago inicial. Revisa la guía gratuita de Flash y Obtén API de Gemini ilimitada y gratuita para conocer las rutas disponibles.
¿Soporta llamadas a funciones?
Sí. La llamada de herramientas y el despacho de subagentes son capacidades centrales. La puntuación de 83.6% en MCP Atlas es el dato más relevante.
¿Cómo se compara con Opus 4.7 y GPT-5.5?
Flash lidera en costo, velocidad de salida y razonamiento de gráficos. Opus 4.7 sigue fuerte en SWE-Bench Pro y escritura larga. GPT-5.5 destaca en eficiencia de tokens. Consulta la comparación entre Gemini 3.5 Flash, GPT-5.5 y Opus 4.7.
¿Puedo ejecutar Gemini 3.5 Flash localmente?
No. No hay una versión de pesos abiertos. Para inferencia local, revisa los mejores LLM locales de 2026.
¿Funciona con Cursor?
Sí, mediante la API estándar de Gemini. El patrón es similar al de Gemini 3.0 Pro con Cursor.
¿Cuál es el nombre del modelo en la API?
Usa:
gemini-3.5-flash
Qué significa para tu stack
Si ya tienes IA en producción, usa esta regla rápida:
- Si usas Gemini 3.1 Flash: prueba 3.5 Flash en paralelo. El salto de velocidad puede justificar la migración en UIs de streaming.
- Si usas Opus 4.7 o GPT-5.5: ejecuta una evaluación de costo/calidad. En agentes largos, Flash puede reducir costos.
- Si estás construyendo un agente nuevo: empieza con Flash y mide desde el día uno.
- Si trabajas con documentos o gráficos: prioriza una prueba multimodal. CharXiv al 84.2% es una señal fuerte.
- Si dependes de tool calling: valida esquemas, orden de llamadas y recuperación ante errores.
Trata Gemini 3.5 Flash como cualquier otro componente de infraestructura: necesita pruebas, observabilidad, evaluación de costo y validación de regresiones. Apidog cubre la parte de pruebas para la API de Gemini; el diseño de prompts, herramientas y evaluaciones sigue siendo responsabilidad de tu pipeline.



Top comments (0)