Roobia

Posted on May 20 • Originally published at apidog.com

Precios de Gemini 3.5 Flash: ¿Cuánto Cuesta Realmente?

Google lanzó Gemini 3.5 Flash el 19 de mayo de 2026 con una promesa clara: “menos de la mitad del costo de otros modelos de vanguardia” para tareas agentivas. Esta guía aterriza esa afirmación en números prácticos: cuánto pagas por token, cuándo usar la capa gratuita, cómo aplicar modo por lotes y qué optimizaciones reducen la factura.

Prueba Apidog hoy

Vas a ver tarifas por token, límites gratuitos, descuentos por batch, escenarios reales de costos y una comparación con GPT-5.5 y Claude Opus 4.7. La idea es que puedas estimar tu factura antes de integrar Flash en producción.

Resumen rápido

Tipo de costo	Tarifa
Entrada estándar	~$1.50 / 1M tokens
Salida estándar	~$9.00 / 1M tokens
Entrada en modo por lotes	~$0.75 / 1M tokens (~50% de descuento)
Salida en modo por lotes	~$4.50 / 1M tokens (~50% de descuento)
Entrada en caché	tarifa reducida, variable
Capa gratuita en AI Studio	~1,500 solicitudes/día, 1M tokens/min, 15 RPM
Nueva cuenta de Vertex AI	Crédito de $300 durante 90 días

Tarifas actuales a mayo de 2026 según el anuncio de lanzamiento de Google y listados de agregadores. Antes de cerrar presupuesto, verifica la página oficial de precios.

Tarifas por token de Gemini 3.5 Flash

Flash usa pago por uso: pagas por tokens de entrada y tokens de salida de forma independiente.

Nivel	Entrada ($/1M)	Salida ($/1M)
Estándar	~$1.50	~$9.00
Entrada en caché	con descuento	n/a
Lote asíncrono	~$0.75	~$4.50

Notas prácticas:

Los tokens no son palabras. Como regla rápida, 1,000 tokens ≈ 750 palabras en inglés. Un documento de 100,000 palabras ronda los 133K tokens.
La salida cuesta mucho más que la entrada. En Flash, la salida es aproximadamente 6 veces más cara. Si generas respuestas largas, la factura sube rápido.
El formato importa. JSON estructurado suele ser más barato que texto libre porque fuerza respuestas más cortas y predecibles.

Ejemplo simple de cálculo:

costo_entrada = tokens_entrada / 1_000_000 * 1.50
costo_salida  = tokens_salida  / 1_000_000 * 9.00
costo_total   = costo_entrada + costo_salida

Para más detalles sobre batch, consulta El modo por lotes de la API de Gemini ya está aquí y es un 50% más barato.

Capa gratuita: cuándo alcanza

La capa gratuita de AI Studio incluye Flash desde el lanzamiento:

1,500 solicitudes por día
1M tokens por minuto
15 solicitudes por minuto

Esto suele ser suficiente para:

prototipos;
proyectos paralelos;
automatizaciones internas pequeñas;
pruebas de integración;
evaluaciones iniciales de prompts.

Detalles importantes:

No requiere tarjeta de crédito.
Usa el mismo modelo gemini-3.5-flash que el endpoint de pago.
El patrón de SDK es el mismo; solo cambia la clave.
Las indicaciones pueden usarse para mejorar modelos de Google, salvo que lo desactives en AI Studio.
Las cuotas pueden cambiar. No diseñes producción alrededor de límites gratuitos exactos.

Para configurar la clave y probar sin pagar, revisa Cómo usar Gemini 3.5 Flash gratis y Cómo obtener una clave API gratuita de Google Gemini.

Modo por lotes: aplica el descuento del 50%

Si tu flujo no necesita respuesta en tiempo real, el modo por lotes reduce el costo de Flash aproximadamente a la mitad.

Flujo típico:

Preparas hasta 50,000 indicaciones.
Envías el trabajo batch.
Google lo procesa dentro de una ventana de 24 horas.
Pagas cerca de 50% menos por tokens de entrada y salida.

Úsalo para:

clasificación masiva de tickets;
análisis legal de documentos;
moderación de contenido;
generación nocturna de reportes;
reprocesamiento de datos históricos;
pipelines de migración;
tareas offline de extracción.

No lo uses para:

chat en tiempo real;
agentes interactivos;
flujos donde el usuario espera una respuesta inmediata;
endpoints síncronos de producto.

Regla práctica: si el usuario no está esperando la respuesta en pantalla, considera batch.

Guía completa: modo por lotes de Gemini.

Entrada en caché: reduce prompts repetidos

Si tus requests comparten un prefijo largo, usa caché de contexto.

Casos comunes:

instrucciones del sistema largas;
documentos de referencia;
políticas internas;
manuales;
fragmentos RAG reutilizados;
ejemplos few-shot estáticos.

Patrón:

Cacheas un documento de referencia de 100K tokens.
Lo reutilizas en muchas consultas.
Pagas tarifa completa solo por la parte nueva del prompt.

En apps tipo RAG, donde los mismos bloques aparecen en varias consultas, el ahorro de entrada puede estar en el rango de 30-60%, dependiendo de la tasa de aciertos.

Escenarios de costos reales

Estos ejemplos usan tarifas estándar de Flash:

Entrada: $1.50 / 1M tokens
Salida:  $9.00 / 1M tokens

Escenario 1: chatbot de soporte

Supuestos:

10,000 mensajes de usuario por día.
200 tokens de entrada promedio.
400 tokens de salida promedio.

Cálculo diario:

Entrada = 10,000 * 200 * (1.50 / 1,000,000) = $3.00
Salida  = 10,000 * 400 * (9.00 / 1,000,000) = $36.00
Total   = ~$39/día

Costo mensual aproximado:

$39 * 30 = ~$1,170/mes

Si el flujo puede ejecutarse en batch, baja a ~$585/mes. Si además cacheas el prompt del sistema, puedes reducir otro 20-30%.

Escenario 2: SaaS de preguntas y respuestas sobre documentos

Supuestos:

1,000 documentos analizados por día.
30K tokens por documento.
500 tokens de salida por respuesta.

Cálculo diario:

Entrada = 1,000 * 30,000 * (1.50 / 1,000,000) = $45.00
Salida  = 1,000 * 500    * (9.00 / 1,000,000) = $4.50
Total   = ~$50/día

Costo mensual:

~$1,500/mes

Aquí el contexto de 1M de Flash simplifica la implementación: puedes enviar documentos completos en vez de montar infraestructura compleja de fragmentación. Aun así, valida el costo frente a un diseño RAG si el volumen crece.

Escenario 3: agente autónomo de larga duración

Supuestos:

1 ejecución de agente = 50 turnos de modelo.
Cada turno: 5K tokens de entrada y 1K tokens de salida.
200 ejecuciones por día.

Costo por ejecución:

Entrada = 50 * 5,000 * (1.50 / 1,000,000) = $0.375
Salida  = 50 * 1,000 * (9.00 / 1,000,000) = $0.45
Total   = ~$0.83 por ejecución

Costo diario:

200 * 0.83 = ~$165/día

Costo mensual:

~$4,950/mes

Como referencia, la misma carga en Opus 4.7 con tarifas aproximadas de ~$15/$75 por 1M tokens cuesta cerca de $25 por ejecución, o ~$5,000/día.

Escenario 4: extracción de gráficos desde capturas

Supuestos:

5,000 capturas de paneles por día.
Cada imagen equivale a ~1,500 tokens de entrada.
Salida: 300 tokens de JSON estructurado.

Cálculo diario:

Entrada = 5,000 * 1,500 * (1.50 / 1,000,000) = $11.25
Salida  = 5,000 * 300   * (9.00 / 1,000,000) = $13.50
Total   = ~$25/día

Costo mensual:

~$750/mes

En modo por lotes:

~$375/mes

El razonamiento de CharXiv al 84.2% indica que la calidad se mantiene para este tipo de carga.

Escenario 5: generación de contenido de alto volumen

Supuestos:

100,000 artículos cortos por día.
500 tokens de entrada.
2,000 tokens de salida por artículo.

Cálculo diario:

Entrada = 100,000 * 500   * (1.50 / 1,000,000) = $75
Salida  = 100,000 * 2,000 * (9.00 / 1,000,000) = $1,800
Total   = ~$1,875/día

Costo mensual:

~$56,250/mes

En batch:

~$28K/mes

A esta escala conviene enrutar tareas simples a modelos más baratos como 3.1 Flash-Lite y reservar Flash para generaciones más complejas.

Costo vs GPT-5.5 y Opus 4.7

Comparación de precios:

Modelo	Entrada ($/1M)	Salida ($/1M)	Múltiplo vs Flash
Gemini 3.5 Flash	~$1.50	~$9.00	1×
GPT-5.5	~$10	~$30	6.7× entrada, 3.3× salida
Claude Opus 4.7	~$15	~$75	10× entrada, 8.3× salida

Para el escenario del chatbot de soporte:

Modelo	Costo diario
Flash	~$39/día
GPT-5.5	~$140/día
Opus 4.7	~$330/día

Esta es la brecha de costos agentivos que Google enfatiza. Los modelos insignia pueden mejorar en tareas difíciles, pero para cargas diarias Flash suele ser suficiente a menor costo.

Más comparativas:

Costo vs otras variantes de Gemini

Modelo	Entrada ($/1M)	Salida ($/1M)	Cuándo usar
Gemini 3.1 Flash-Lite	~$0.40	~$2.00	Trabajo rutinario de alto volumen
Gemini 3 Flash	~$0.50	~$3.00	Generación anterior, aún sólida
Gemini 3.1 Pro	~$2.00	~$12.00	Razonamiento intensivo antes de 3.5 Pro
Gemini 3.5 Flash	~$1.50	~$9.00	Valor predeterminado para la mayoría de cargas
Gemini 3.5 Pro, junio 2026	Por determinar	Por determinar	Tareas de razonamiento más difíciles

Flash es más caro que algunos modelos Flash anteriores, pero también se posiciona por debajo del nivel Pro. Para muchos equipos, el trade-off es razonable: mejor capacidad que Flash 3.x y menor costo que Pro 3.x.

Referencias:

Vertex AI para producción

Si llamas a Flash desde Vertex AI en lugar de AI Studio, el precio por token es el mismo. Cambian las capacidades operativas:

autenticación con cuenta de servicio;
Cloud Logging;
registros de auditoría;
controles de residencia de datos;
sin capa gratuita;
crédito de $300 para nuevas cuentas;
cuotas personalizadas negociables a escala.

Ruta recomendada:

Prototipa en AI Studio gratuito.
Pasa a AI Studio de pago cuando necesites más cuota.
Migra a Vertex AI cuando necesites controles empresariales.

El comportamiento del modelo es el mismo en los tres entornos.

Cómo optimizar costos

Seis prácticas con impacto directo:

Usa batch para todo lo offline. Si no necesitas respuesta inmediata, aplica el descuento del 50%.
Cachea prefijos largos. Sistema, instrucciones, documentos y ejemplos few-shot son buenos candidatos.
Fuerza JSON estructurado. Reduce verbosidad, facilita parsing y baja tokens de salida.
Enruta por complejidad. Tareas fáciles a Flash-Lite; tareas medianas a Flash; tareas críticas a modelos superiores cuando sea necesario.
Prevalida entradas. No gastes tokens en requests mal formadas. Apidog ayuda a detectarlas antes de llegar a la API.
Registra tokens por request. Los sobrecostos suelen venir de pocos prompts anómalos.

Ejemplo de middleware conceptual para registrar costo:

function estimateGeminiCost({ inputTokens, outputTokens }) {
  const inputCost = (inputTokens / 1_000_000) * 1.5;
  const outputCost = (outputTokens / 1_000_000) * 9.0;

  return {
    inputCost,
    outputCost,
    totalCost: inputCost + outputCost,
  };
}

const usage = {
  inputTokens: 1200,
  outputTokens: 450,
};

console.log(estimateGeminiCost(usage));

Para validar prompts y respuestas, descarga Apidog, guarda tu endpoint de Gemini 3.5 Flash como una request y agrega aserciones sobre el formato de salida. Evitas quemar cuota repitiendo llamadas defectuosas durante debugging.

Cuándo pasar de gratis a pago

Actualiza de Flash gratuito a pago si ocurre una de estas señales:

Llegas a 1,500 solicitudes/día varios días seguidos. El tiempo invertido en esquivar cuotas suele costar más que pagar uso real.
Necesitas más RPM. La capa gratuita limita a 15 solicitudes por minuto.
Necesitas auditoría o residencia de datos. Usa Vertex AI en una cuenta facturada.

En muchos equipos, $50-$200/mes en Flash de pago reemplazan trabajo manual, colas artificiales y límites frágiles de prototipo.

Riesgos de precios

Tres variables pueden cambiar los cálculos:

Cambios de cuota. Google puede ajustar los límites gratuitos. No dependas de 1,500/día como base de arquitectura.
Lanzamiento de 3.5 Pro. Cuando llegue Pro, el posicionamiento de Flash podría cambiar.
Recargos regionales. Vertex AI puede variar por región. EE. UU. Central suele ser la referencia más barata; algunas regiones pueden tener primas del 10-20%.

Configura alertas desde el día uno:

en AI Studio, revisa cuotas del proyecto;
en Vertex AI, usa Cloud Billing;
define presupuestos diarios;
alerta antes de que un prompt defectuoso se convierta en una factura grande.

En resumen

Gemini 3.5 Flash es un buen punto de partida para cargas de IA en producción donde el costo importa. Con tarifas estándar de ~$1.50 / ~$9.00 por 1M tokens, queda por debajo de modelos insignia en muchas cargas comunes. Batch y caché de contexto reducen aún más el costo efectivo.

Para cargas donde Flash no alcance, mezcla niveles:

Flash para la mayoría del tráfico;
GPT-5.5 u Opus 4.7 para tareas difíciles;
Flash-Lite para tareas rutinarias de alto volumen.

Plan de implementación:

Guarda el endpoint de Gemini 3.5 Flash en Apidog.
Ejecuta 20 prompts reales contra Flash y tu modelo actual.
Registra tokens de entrada y salida.
Extrapola costo mensual.
Identifica qué tráfico mover a Flash, qué tráfico enviar a batch y qué tráfico mantener en modelos más caros.

Ese análisis suele tomar uno o dos días y puede recuperar su costo en el primer ciclo de facturación.

DEV Community

Precios de Gemini 3.5 Flash: ¿Cuánto Cuesta Realmente?

Resumen rápido

Tarifas por token de Gemini 3.5 Flash

Capa gratuita: cuándo alcanza

Modo por lotes: aplica el descuento del 50%

Entrada en caché: reduce prompts repetidos

Escenarios de costos reales

Escenario 1: chatbot de soporte

Escenario 2: SaaS de preguntas y respuestas sobre documentos

Escenario 3: agente autónomo de larga duración

Escenario 4: extracción de gráficos desde capturas

Escenario 5: generación de contenido de alto volumen

Costo vs GPT-5.5 y Opus 4.7

Costo vs otras variantes de Gemini

Vertex AI para producción

Cómo optimizar costos

Cuándo pasar de gratis a pago

Riesgos de precios

En resumen

Top comments (0)