Lucas

Posted on May 20 • Originally published at apidog.com

Preço Gemini 3.5 Flash: Quanto Custa de Verdade?

O Google lançou o Gemini 3.5 Flash em 19 de maio de 2026 com uma promessa forte: custar “menos da metade de outros modelos de ponta” para tarefas agentivas. Este guia transforma essa afirmação em números práticos para você estimar custo, escolher entre camada gratuita, modo em lote e Vertex AI, e decidir quando o Flash realmente reduz sua conta.

Experimente o Apidog hoje

Você verá taxas por token, limites gratuitos, desconto do modo em lote, cenários reais de uso e comparações com GPT-5.5 e Claude Opus 4.7. A ideia é sair com uma estimativa clara de custo mensal e uma lista de otimizações aplicáveis no seu projeto.

Resumo rápido

Tipo de custo	Taxa
Entrada padrão	~$1.50 / 1M tokens
Saída padrão	~$9.00 / 1M tokens
Entrada modo em lote	~$0.75 / 1M tokens (~50% de desconto)
Saída modo em lote	~$4.50 / 1M tokens (~50% de desconto)
Entrada em cache	taxa reduzida, varia
Camada gratuita no AI Studio	~1.500 requisições/dia, 1M tokens/min, 15 RPM
Nova conta Vertex AI	Crédito de $300 por 90 dias

Taxas atuais em maio de 2026, conforme o anúncio de lançamento do Google e listas de agregadores. Antes de fechar orçamento, valide na página oficial de preços.

Gemini 3.5 Flash: taxas por token

O Flash usa pagamento conforme o uso. Você paga separadamente por:

tokens de entrada;
tokens de saída;
possíveis descontos por cache;
possíveis descontos por processamento em lote.

Camada	Entrada ($/1M)	Saída ($/1M)
Padrão	~$1.50	~$9.00
Entrada em cache	com desconto	n/a
Lote assíncrono	~$0.75	~$4.50

Duas regras práticas para estimar custo:

Tokens não são palavras. Como aproximação: 1.000 tokens ≈ 750 palavras em inglês. Um texto de 100.000 palavras pode ter cerca de 133K tokens.
Saída pesa mais no custo. A saída custa cerca de 6x mais que a entrada. Respostas longas encarecem rápido. Sempre que possível, use JSON estruturado ou respostas curtas.

Exemplo simples de cálculo:

custo_entrada = tokens_entrada / 1_000_000 * 1.50
custo_saida   = tokens_saida   / 1_000_000 * 9.00
custo_total   = custo_entrada + custo_saida

Para entender o modo em lote do Gemini, veja O modo em lote da API Gemini chegou e é 50% mais barato.

Camada gratuita: quando usar

A camada gratuita do AI Studio está disponível com o Flash desde o primeiro dia. Limites no lançamento:

1.500 requisições por dia
1M tokens por minuto
15 requisições por minuto

Use a camada gratuita para:

protótipos;
projetos paralelos;
validação de prompts;
automações internas pequenas;
testes de integração.

Se sua carga fica abaixo de 1.500 chamadas/dia, o custo direto é $0.

Características importantes:

não exige cartão de crédito;
usa o mesmo modelo gemini-3.5-flash do endpoint pago;
usa o mesmo padrão de SDK, mudando apenas a chave;
prompts podem ser usados para melhorar modelos do Google, com opção de saída nas configurações do AI Studio;
cotas podem mudar, então não projete produção crítica em cima desses números fixos.

Guias relacionados:

Modo em lote: como cortar cerca de 50%

Se a resposta não precisa ser em tempo real, use o modo em lote. Ele reduz o custo do Flash em aproximadamente metade.

Fluxo básico:

Agrupe os prompts.
Envie um job em lote com até 50.000 prompts.
O Google processa em até 24 horas.
Você paga cerca de 50% menos por tokens de entrada e saída.

Use modo em lote para:

análise em massa de documentos;
triagem de tickets;
moderação de conteúdo;
geração noturna de conteúdo para dashboards;
reprocessamento de dados históricos;
migrações;
jobs internos sem interação humana imediata.

Evite modo em lote para:

chat em tempo real;
agentes interativos;
interfaces de usuário;
workflows que dependem de resposta imediata.

Regra prática: se o usuário não está esperando a resposta na tela, avalie lote.

Detalhes de configuração: guia de modo em lote.

Entrada em cache: economize em prompts repetidos

O cache de contexto ajuda quando seus prompts compartilham um prefixo grande e estático, por exemplo:

prompt de sistema longo;
documentação de referência;
políticas internas;
contrato ou manual reutilizado;
instruções fixas para um agente.

Padrão típico:

Armazene em cache um documento de referência de 100K tokens.
Reutilize esse contexto em milhares de consultas.
Pague taxa cheia apenas pela parte nova da pergunta.

Em aplicações RAG, quando os mesmos trechos aparecem em várias consultas, a economia de entrada pode ficar na faixa de 30% a 60%, dependendo da taxa de acerto do cache.

Cenários de custo reais

A seguir, cinco estimativas usando as taxas padrão do Gemini 3.5 Flash.

Cenário 1: chatbot de suporte ao cliente

Premissas:

10.000 mensagens de usuário por dia;
200 tokens médios de entrada por mensagem;
400 tokens médios de saída por resposta.

Cálculo diário:

Entrada = 10.000 × 200 × ($1.50 / 1M) = $3.00/dia
Saída   = 10.000 × 400 × ($9.00 / 1M) = $36.00/dia
Total   = ~$39/dia

Estimativa mensal:

$39 × 30 = ~$1.170/mês

Se essa carga puder rodar em lote, o custo cai para cerca de $585/mês. Com cache no prompt de sistema, ainda pode haver mais 20% a 30% de redução.

Cenário 2: SaaS de perguntas e respostas sobre documentos

Premissas:

1.000 documentos analisados por dia;
cada documento tem 30K tokens;
cada resposta tem 500 tokens.

Cálculo diário:

Entrada = 1.000 × 30.000 × ($1.50 / 1M) = $45.00/dia
Saída   = 1.000 × 500 × ($9.00 / 1M)    = $4.50/dia
Total   = ~$50/dia

Estimativa mensal:

$50 × 30 = ~$1.500/mês

Aqui o contexto de 1M do Flash ajuda: você pode enviar documentos longos sem montar uma infraestrutura complexa de fragmentação. Em alguns casos, isso reduz custo operacional e simplifica a arquitetura em comparação com RAG fragmentado usando modelos mais caros.

Cenário 3: agente autônomo de longa duração

Premissas:

uma execução do agente tem 50 turnos;
cada turno usa 5K tokens de entrada;
cada turno gera 1K token de saída;
200 execuções por dia.

Custo por execução:

Entrada = 50 × 5.000 × ($1.50 / 1M) = $0.375
Saída   = 50 × 1.000 × ($9.00 / 1M) = $0.45
Total   = ~$0.83 por execução

Custo diário:

200 × $0.83 = ~$165/dia

Custo mensal:

$165 × 30 = ~$4.950/mês

Para comparação, a mesma carga no Claude Opus 4.7, considerando ~$15/$75 por 1M tokens, ficaria próxima de $25 por execução, ou cerca de $5.000/dia. Essa é a diferença de custo agentiva que sustenta a afirmação do Google.

Cenário 4: pipeline de extração de gráficos

Premissas:

5.000 capturas de tela de dashboards por dia;
cada imagem equivale a ~1.500 tokens de entrada;
saída de 300 tokens em JSON estruturado.

Cálculo diário:

Entrada = 5.000 × 1.500 × ($1.50 / 1M) = $11.25/dia
Saída   = 5.000 × 300 × ($9.00 / 1M)   = $13.50/dia
Total   = ~$25/dia

Estimativa mensal:

$25 × 30 = ~$750/mês

Com modo em lote:

~$750 / 2 = ~$375/mês

O raciocínio CharXiv em 84,2% indica que a qualidade se mantém para esse tipo de workload visual.

Cenário 5: geração de conteúdo em alto volume

Premissas:

100.000 artigos curtos por dia;
500 tokens de entrada por artigo;
2.000 tokens de saída por artigo.

Cálculo diário:

Entrada = 100.000 × 500 × ($1.50 / 1M)   = $75/dia
Saída   = 100.000 × 2.000 × ($9.00 / 1M) = $1.800/dia
Total   = ~$1.875/dia

Estimativa mensal:

$1.875 × 30 = ~$56.250/mês

Com modo em lote:

~$56.250 / 2 = ~$28K/mês

Nesse volume, também vale testar roteamento por complexidade: tarefas rotineiras para modelos mais baratos, como 3.1 Flash-Lite, e Flash apenas para gerações mais difíceis.

Custo vs GPT-5.5 e Opus 4.7

Comparação direta de preço:

Modelo	Entrada ($/1M)	Saída ($/1M)	Múltiplo vs Flash
Gemini 3.5 Flash	~$1.50	~$9.00	1×
GPT-5.5	~$10	~$30	6.7× entrada, 3.3× saída
Claude Opus 4.7	~$15	~$75	10× entrada, 8.3× saída

Aplicando o Cenário 1 de chatbot:

Modelo	Custo diário estimado
Flash	$39/dia
GPT-5.5	~$140/dia
Opus 4.7	~$330/dia

A diferença é relevante para workloads repetitivos. Modelos principais podem entregar qualidade melhor em tarefas difíceis, mas para fluxos comuns de suporte, extração, classificação e automação, o Flash tende a ser suficiente por uma fração do custo.

Leituras relacionadas:

Custo vs outras variantes do Gemini

Modelo	Entrada ($/1M)	Saída ($/1M)	Quando usar
Gemini 3.1 Flash-Lite	~$0.40	~$2.00	Trabalhos rotineiros de alto volume
Gemini 3 Flash	~$0.50	~$3.00	Geração anterior, ainda sólida
Gemini 3.1 Pro	~$2.00	~$12.00	Trabalho intensivo em raciocínio antes do 3.5 Pro
Gemini 3.5 Flash	~$1.50	~$9.00	Novo padrão para a maioria das cargas de trabalho
Gemini 3.5 Pro, junho de 2026	A definir	A definir	Tarefas de raciocínio mais difíceis

O Flash é mais caro que variantes Flash 3.x anteriores, mas ainda é consideravelmente mais barato que camadas Pro. Para muitas equipes, a troca é razoável: melhor capacidade que Flash 3.x, custo menor que Pro 3.x.

Links úteis:

Preços do Vertex AI em produção

Se você chamar o Flash pelo Vertex AI em vez do AI Studio, o preço por token é o mesmo. O que muda é o ambiente operacional.

Vertex AI oferece:

autenticação por conta de serviço;
logs de auditoria no Cloud Logging;
controles de residência de dados;
cotas personalizadas negociáveis em escala;
integração com faturamento do Google Cloud.

Diferença importante:

AI Studio tem camada gratuita;
Vertex AI não tem camada gratuita, mas novas contas podem ter crédito de $300 por 90 dias.

Caminho recomendado para muitas equipes:

Prototipe no AI Studio gratuito.
Valide custo e qualidade.
Migre para AI Studio pago quando precisar escalar.
Use Vertex AI quando precisar de controles empresariais.

O comportamento do modelo é o mesmo entre esses caminhos.

Como otimizar custo na prática

Seis ações com impacto direto na conta:

Use modo em lote sempre que a resposta não for em tempo real. É a otimização mais simples: cerca de 50% de desconto.
Coloque prefixos longos em cache. Prompts de sistema, documentos de referência e instruções fixas são bons candidatos.
Prefira JSON estruturado. O modelo escreve menos, a resposta fica mais fácil de validar e o custo cai.
Roteie por complexidade. Tarefas fáceis para Flash-Lite, tarefas médias para Flash e tarefas muito difíceis para 3.5 Pro quando estiver disponível.
Valide entradas antes de chamar a API. Não gaste tokens com payload quebrado. O Apidog ajuda a interceptar requisições inválidas antes que cheguem à API.
Logue tokens por requisição. Registre entrada, saída, endpoint, usuário e tipo de prompt. Picos de custo normalmente vêm de poucos prompts fora do padrão.

Exemplo de middleware conceitual para registrar custo:

function estimateGeminiFlashCost({ inputTokens, outputTokens }) {
  const inputCost = (inputTokens / 1_000_000) * 1.50;
  const outputCost = (outputTokens / 1_000_000) * 9.00;

  return {
    inputCost,
    outputCost,
    totalCost: inputCost + outputCost,
  };
}

// Exemplo
const usage = estimateGeminiFlashCost({
  inputTokens: 5000,
  outputTokens: 1000,
});

console.log(usage);

Para validar prompts e respostas antes de gastar chamadas repetidas, baixe o Apidog, crie uma requisição para seu endpoint Gemini e adicione asserções de formato de resposta. Reenviar a mesma requisição quebrada centenas de vezes durante debug é uma forma comum de consumir a cota gratuita em poucas horas.

Quando sair da camada gratuita

Atualize para uso pago quando um destes sinais aparecer:

Você atinge 1.500 requisições/dia por vários dias seguidos. O custo pago tende a ser menor que o tempo gasto contornando cota.
Você precisa de mais throughput. A camada gratuita limita a 15 RPM.
Você precisa de residência de dados ou auditoria. Nesse caso, mova para Vertex AI em uma conta faturada.

Na prática, muitas equipes descobrem que $50–200/mês de Flash pago substituem bastante complexidade operacional da camada gratuita.

Riscos de preço

Três fatores podem alterar a estimativa:

Mudança de cotas. O Google pode ajustar limites gratuitos com o tempo. Não dependa do número exato de 1.500/dia para produção.
Lançamento do 3.5 Pro. Quando o Pro chegar, o posicionamento de preço do Flash pode mudar.
Variação regional no Vertex AI. Preços podem variar por região. Algumas regiões podem ter prêmios de 10% a 20%.

Configure alertas de custo desde o primeiro dia:

no AI Studio, acompanhe cotas do projeto;
no Vertex AI, use Cloud Billing e budgets diários.

Conclusão

O Gemini 3.5 Flash é barato o suficiente para ser o ponto de partida de muitas cargas de IA em produção. Com taxas em torno de $1.50 por 1M tokens de entrada e $9 por 1M tokens de saída, ele fica abaixo de modelos de ponta mais caros em grande parte dos workloads comuns.

Para reduzir ainda mais a conta:

use modo em lote quando houver tolerância a latência;
aplique cache em contextos repetidos;
gere saídas estruturadas;
roteie tarefas simples para modelos mais baratos;
monitore tokens por requisição.

Quando o Flash não for suficiente, misture camadas: Flash para o volume principal e modelos como GPT-5.5 ou Opus 4.7 para tarefas mais difíceis.

Plano prático para começar:

Salve o endpoint Gemini 3.5 Flash no Apidog.
Rode 20 prompts reais do seu produto.
Registre tokens de entrada e saída.
Extrapole o custo mensal.
Compare com seu modelo atual.
Decida quais rotas migram para Flash, Flash-Lite ou modelos mais fortes.

Esse teste costuma levar poucos dias e pode se pagar no primeiro ciclo de faturamento.

DEV Community

Preço Gemini 3.5 Flash: Quanto Custa de Verdade?

Resumo rápido

Gemini 3.5 Flash: taxas por token

Camada gratuita: quando usar

Modo em lote: como cortar cerca de 50%

Entrada em cache: economize em prompts repetidos

Cenários de custo reais

Cenário 1: chatbot de suporte ao cliente

Cenário 2: SaaS de perguntas e respostas sobre documentos

Cenário 3: agente autônomo de longa duração

Cenário 4: pipeline de extração de gráficos

Cenário 5: geração de conteúdo em alto volume

Custo vs GPT-5.5 e Opus 4.7

Custo vs outras variantes do Gemini

Preços do Vertex AI em produção

Como otimizar custo na prática

Quando sair da camada gratuita

Riscos de preço

Conclusão

Top comments (0)