Google lanzó Gemini 3.5 Flash el 19 de mayo de 2026 con una promesa clara: “menos de la mitad del costo de otros modelos de vanguardia” para tareas agentivas. Esta guía aterriza esa afirmación en números prácticos: cuánto pagas por token, cuándo usar la capa gratuita, cómo aplicar modo por lotes y qué optimizaciones reducen la factura.
Vas a ver tarifas por token, límites gratuitos, descuentos por batch, escenarios reales de costos y una comparación con GPT-5.5 y Claude Opus 4.7. La idea es que puedas estimar tu factura antes de integrar Flash en producción.
Resumen rápido
| Tipo de costo | Tarifa |
|---|---|
| Entrada estándar | ~$1.50 / 1M tokens |
| Salida estándar | ~$9.00 / 1M tokens |
| Entrada en modo por lotes | ~$0.75 / 1M tokens (~50% de descuento) |
| Salida en modo por lotes | ~$4.50 / 1M tokens (~50% de descuento) |
| Entrada en caché | tarifa reducida, variable |
| Capa gratuita en AI Studio | ~1,500 solicitudes/día, 1M tokens/min, 15 RPM |
| Nueva cuenta de Vertex AI | Crédito de $300 durante 90 días |
Tarifas actuales a mayo de 2026 según el anuncio de lanzamiento de Google y listados de agregadores. Antes de cerrar presupuesto, verifica la página oficial de precios.
Tarifas por token de Gemini 3.5 Flash
Flash usa pago por uso: pagas por tokens de entrada y tokens de salida de forma independiente.
| Nivel | Entrada ($/1M) | Salida ($/1M) |
|---|---|---|
| Estándar | ~$1.50 | ~$9.00 |
| Entrada en caché | con descuento | n/a |
| Lote asíncrono | ~$0.75 | ~$4.50 |
Notas prácticas:
- Los tokens no son palabras. Como regla rápida, 1,000 tokens ≈ 750 palabras en inglés. Un documento de 100,000 palabras ronda los 133K tokens.
- La salida cuesta mucho más que la entrada. En Flash, la salida es aproximadamente 6 veces más cara. Si generas respuestas largas, la factura sube rápido.
- El formato importa. JSON estructurado suele ser más barato que texto libre porque fuerza respuestas más cortas y predecibles.
Ejemplo simple de cálculo:
costo_entrada = tokens_entrada / 1_000_000 * 1.50
costo_salida = tokens_salida / 1_000_000 * 9.00
costo_total = costo_entrada + costo_salida
Para más detalles sobre batch, consulta El modo por lotes de la API de Gemini ya está aquí y es un 50% más barato.
Capa gratuita: cuándo alcanza
La capa gratuita de AI Studio incluye Flash desde el lanzamiento:
- 1,500 solicitudes por día
- 1M tokens por minuto
- 15 solicitudes por minuto
Esto suele ser suficiente para:
- prototipos;
- proyectos paralelos;
- automatizaciones internas pequeñas;
- pruebas de integración;
- evaluaciones iniciales de prompts.
Detalles importantes:
- No requiere tarjeta de crédito.
- Usa el mismo modelo
gemini-3.5-flashque el endpoint de pago. - El patrón de SDK es el mismo; solo cambia la clave.
- Las indicaciones pueden usarse para mejorar modelos de Google, salvo que lo desactives en AI Studio.
- Las cuotas pueden cambiar. No diseñes producción alrededor de límites gratuitos exactos.
Para configurar la clave y probar sin pagar, revisa Cómo usar Gemini 3.5 Flash gratis y Cómo obtener una clave API gratuita de Google Gemini.
Modo por lotes: aplica el descuento del 50%
Si tu flujo no necesita respuesta en tiempo real, el modo por lotes reduce el costo de Flash aproximadamente a la mitad.
Flujo típico:
- Preparas hasta 50,000 indicaciones.
- Envías el trabajo batch.
- Google lo procesa dentro de una ventana de 24 horas.
- Pagas cerca de 50% menos por tokens de entrada y salida.
Úsalo para:
- clasificación masiva de tickets;
- análisis legal de documentos;
- moderación de contenido;
- generación nocturna de reportes;
- reprocesamiento de datos históricos;
- pipelines de migración;
- tareas offline de extracción.
No lo uses para:
- chat en tiempo real;
- agentes interactivos;
- flujos donde el usuario espera una respuesta inmediata;
- endpoints síncronos de producto.
Regla práctica: si el usuario no está esperando la respuesta en pantalla, considera batch.
Guía completa: modo por lotes de Gemini.
Entrada en caché: reduce prompts repetidos
Si tus requests comparten un prefijo largo, usa caché de contexto.
Casos comunes:
- instrucciones del sistema largas;
- documentos de referencia;
- políticas internas;
- manuales;
- fragmentos RAG reutilizados;
- ejemplos few-shot estáticos.
Patrón:
- Cacheas un documento de referencia de 100K tokens.
- Lo reutilizas en muchas consultas.
- Pagas tarifa completa solo por la parte nueva del prompt.
En apps tipo RAG, donde los mismos bloques aparecen en varias consultas, el ahorro de entrada puede estar en el rango de 30-60%, dependiendo de la tasa de aciertos.
Escenarios de costos reales
Estos ejemplos usan tarifas estándar de Flash:
Entrada: $1.50 / 1M tokens
Salida: $9.00 / 1M tokens
Escenario 1: chatbot de soporte
Supuestos:
- 10,000 mensajes de usuario por día.
- 200 tokens de entrada promedio.
- 400 tokens de salida promedio.
Cálculo diario:
Entrada = 10,000 * 200 * (1.50 / 1,000,000) = $3.00
Salida = 10,000 * 400 * (9.00 / 1,000,000) = $36.00
Total = ~$39/día
Costo mensual aproximado:
$39 * 30 = ~$1,170/mes
Si el flujo puede ejecutarse en batch, baja a ~$585/mes. Si además cacheas el prompt del sistema, puedes reducir otro 20-30%.
Escenario 2: SaaS de preguntas y respuestas sobre documentos
Supuestos:
- 1,000 documentos analizados por día.
- 30K tokens por documento.
- 500 tokens de salida por respuesta.
Cálculo diario:
Entrada = 1,000 * 30,000 * (1.50 / 1,000,000) = $45.00
Salida = 1,000 * 500 * (9.00 / 1,000,000) = $4.50
Total = ~$50/día
Costo mensual:
~$1,500/mes
Aquí el contexto de 1M de Flash simplifica la implementación: puedes enviar documentos completos en vez de montar infraestructura compleja de fragmentación. Aun así, valida el costo frente a un diseño RAG si el volumen crece.
Escenario 3: agente autónomo de larga duración
Supuestos:
- 1 ejecución de agente = 50 turnos de modelo.
- Cada turno: 5K tokens de entrada y 1K tokens de salida.
- 200 ejecuciones por día.
Costo por ejecución:
Entrada = 50 * 5,000 * (1.50 / 1,000,000) = $0.375
Salida = 50 * 1,000 * (9.00 / 1,000,000) = $0.45
Total = ~$0.83 por ejecución
Costo diario:
200 * 0.83 = ~$165/día
Costo mensual:
~$4,950/mes
Como referencia, la misma carga en Opus 4.7 con tarifas aproximadas de ~$15/$75 por 1M tokens cuesta cerca de $25 por ejecución, o ~$5,000/día.
Escenario 4: extracción de gráficos desde capturas
Supuestos:
- 5,000 capturas de paneles por día.
- Cada imagen equivale a ~1,500 tokens de entrada.
- Salida: 300 tokens de JSON estructurado.
Cálculo diario:
Entrada = 5,000 * 1,500 * (1.50 / 1,000,000) = $11.25
Salida = 5,000 * 300 * (9.00 / 1,000,000) = $13.50
Total = ~$25/día
Costo mensual:
~$750/mes
En modo por lotes:
~$375/mes
El razonamiento de CharXiv al 84.2% indica que la calidad se mantiene para este tipo de carga.
Escenario 5: generación de contenido de alto volumen
Supuestos:
- 100,000 artículos cortos por día.
- 500 tokens de entrada.
- 2,000 tokens de salida por artículo.
Cálculo diario:
Entrada = 100,000 * 500 * (1.50 / 1,000,000) = $75
Salida = 100,000 * 2,000 * (9.00 / 1,000,000) = $1,800
Total = ~$1,875/día
Costo mensual:
~$56,250/mes
En batch:
~$28K/mes
A esta escala conviene enrutar tareas simples a modelos más baratos como 3.1 Flash-Lite y reservar Flash para generaciones más complejas.
Costo vs GPT-5.5 y Opus 4.7
Comparación de precios:
| Modelo | Entrada ($/1M) | Salida ($/1M) | Múltiplo vs Flash |
|---|---|---|---|
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1× |
| GPT-5.5 | ~$10 | ~$30 | 6.7× entrada, 3.3× salida |
| Claude Opus 4.7 | ~$15 | ~$75 | 10× entrada, 8.3× salida |
Para el escenario del chatbot de soporte:
| Modelo | Costo diario |
|---|---|
| Flash | ~$39/día |
| GPT-5.5 | ~$140/día |
| Opus 4.7 | ~$330/día |
Esta es la brecha de costos agentivos que Google enfatiza. Los modelos insignia pueden mejorar en tareas difíciles, pero para cargas diarias Flash suele ser suficiente a menor costo.
Más comparativas:
Costo vs otras variantes de Gemini
| Modelo | Entrada ($/1M) | Salida ($/1M) | Cuándo usar |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | ~$0.40 | ~$2.00 | Trabajo rutinario de alto volumen |
| Gemini 3 Flash | ~$0.50 | ~$3.00 | Generación anterior, aún sólida |
| Gemini 3.1 Pro | ~$2.00 | ~$12.00 | Razonamiento intensivo antes de 3.5 Pro |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | Valor predeterminado para la mayoría de cargas |
| Gemini 3.5 Pro, junio 2026 | Por determinar | Por determinar | Tareas de razonamiento más difíciles |
Flash es más caro que algunos modelos Flash anteriores, pero también se posiciona por debajo del nivel Pro. Para muchos equipos, el trade-off es razonable: mejor capacidad que Flash 3.x y menor costo que Pro 3.x.
Referencias:
Vertex AI para producción
Si llamas a Flash desde Vertex AI en lugar de AI Studio, el precio por token es el mismo. Cambian las capacidades operativas:
- autenticación con cuenta de servicio;
- Cloud Logging;
- registros de auditoría;
- controles de residencia de datos;
- sin capa gratuita;
- crédito de $300 para nuevas cuentas;
- cuotas personalizadas negociables a escala.
Ruta recomendada:
- Prototipa en AI Studio gratuito.
- Pasa a AI Studio de pago cuando necesites más cuota.
- Migra a Vertex AI cuando necesites controles empresariales.
El comportamiento del modelo es el mismo en los tres entornos.
Cómo optimizar costos
Seis prácticas con impacto directo:
- Usa batch para todo lo offline. Si no necesitas respuesta inmediata, aplica el descuento del 50%.
- Cachea prefijos largos. Sistema, instrucciones, documentos y ejemplos few-shot son buenos candidatos.
- Fuerza JSON estructurado. Reduce verbosidad, facilita parsing y baja tokens de salida.
- Enruta por complejidad. Tareas fáciles a Flash-Lite; tareas medianas a Flash; tareas críticas a modelos superiores cuando sea necesario.
- Prevalida entradas. No gastes tokens en requests mal formadas. Apidog ayuda a detectarlas antes de llegar a la API.
- Registra tokens por request. Los sobrecostos suelen venir de pocos prompts anómalos.
Ejemplo de middleware conceptual para registrar costo:
function estimateGeminiCost({ inputTokens, outputTokens }) {
const inputCost = (inputTokens / 1_000_000) * 1.5;
const outputCost = (outputTokens / 1_000_000) * 9.0;
return {
inputCost,
outputCost,
totalCost: inputCost + outputCost,
};
}
const usage = {
inputTokens: 1200,
outputTokens: 450,
};
console.log(estimateGeminiCost(usage));
Para validar prompts y respuestas, descarga Apidog, guarda tu endpoint de Gemini 3.5 Flash como una request y agrega aserciones sobre el formato de salida. Evitas quemar cuota repitiendo llamadas defectuosas durante debugging.
Cuándo pasar de gratis a pago
Actualiza de Flash gratuito a pago si ocurre una de estas señales:
- Llegas a 1,500 solicitudes/día varios días seguidos. El tiempo invertido en esquivar cuotas suele costar más que pagar uso real.
- Necesitas más RPM. La capa gratuita limita a 15 solicitudes por minuto.
- Necesitas auditoría o residencia de datos. Usa Vertex AI en una cuenta facturada.
En muchos equipos, $50-$200/mes en Flash de pago reemplazan trabajo manual, colas artificiales y límites frágiles de prototipo.
Riesgos de precios
Tres variables pueden cambiar los cálculos:
- Cambios de cuota. Google puede ajustar los límites gratuitos. No dependas de 1,500/día como base de arquitectura.
- Lanzamiento de 3.5 Pro. Cuando llegue Pro, el posicionamiento de Flash podría cambiar.
- Recargos regionales. Vertex AI puede variar por región. EE. UU. Central suele ser la referencia más barata; algunas regiones pueden tener primas del 10-20%.
Configura alertas desde el día uno:
- en AI Studio, revisa cuotas del proyecto;
- en Vertex AI, usa Cloud Billing;
- define presupuestos diarios;
- alerta antes de que un prompt defectuoso se convierta en una factura grande.
En resumen
Gemini 3.5 Flash es un buen punto de partida para cargas de IA en producción donde el costo importa. Con tarifas estándar de ~$1.50 / ~$9.00 por 1M tokens, queda por debajo de modelos insignia en muchas cargas comunes. Batch y caché de contexto reducen aún más el costo efectivo.
Para cargas donde Flash no alcance, mezcla niveles:
- Flash para la mayoría del tráfico;
- GPT-5.5 u Opus 4.7 para tareas difíciles;
- Flash-Lite para tareas rutinarias de alto volumen.
Plan de implementación:
- Guarda el endpoint de Gemini 3.5 Flash en Apidog.
- Ejecuta 20 prompts reales contra Flash y tu modelo actual.
- Registra tokens de entrada y salida.
- Extrapola costo mensual.
- Identifica qué tráfico mover a Flash, qué tráfico enviar a batch y qué tráfico mantener en modelos más caros.
Ese análisis suele tomar uno o dos días y puede recuperar su costo en el primer ciclo de facturación.

Top comments (0)