O Google lançou o Gemini 3.5 Flash em 19 de maio de 2026 com uma promessa forte: custar “menos da metade de outros modelos de ponta” para tarefas agentivas. Este guia transforma essa afirmação em números práticos para você estimar custo, escolher entre camada gratuita, modo em lote e Vertex AI, e decidir quando o Flash realmente reduz sua conta.
Você verá taxas por token, limites gratuitos, desconto do modo em lote, cenários reais de uso e comparações com GPT-5.5 e Claude Opus 4.7. A ideia é sair com uma estimativa clara de custo mensal e uma lista de otimizações aplicáveis no seu projeto.
Resumo rápido
| Tipo de custo | Taxa |
|---|---|
| Entrada padrão | ~$1.50 / 1M tokens |
| Saída padrão | ~$9.00 / 1M tokens |
| Entrada modo em lote | ~$0.75 / 1M tokens (~50% de desconto) |
| Saída modo em lote | ~$4.50 / 1M tokens (~50% de desconto) |
| Entrada em cache | taxa reduzida, varia |
| Camada gratuita no AI Studio | ~1.500 requisições/dia, 1M tokens/min, 15 RPM |
| Nova conta Vertex AI | Crédito de $300 por 90 dias |
Taxas atuais em maio de 2026, conforme o anúncio de lançamento do Google e listas de agregadores. Antes de fechar orçamento, valide na página oficial de preços.
Gemini 3.5 Flash: taxas por token
O Flash usa pagamento conforme o uso. Você paga separadamente por:
- tokens de entrada;
- tokens de saída;
- possíveis descontos por cache;
- possíveis descontos por processamento em lote.
| Camada | Entrada ($/1M) | Saída ($/1M) |
|---|---|---|
| Padrão | ~$1.50 | ~$9.00 |
| Entrada em cache | com desconto | n/a |
| Lote assíncrono | ~$0.75 | ~$4.50 |
Duas regras práticas para estimar custo:
- Tokens não são palavras. Como aproximação: 1.000 tokens ≈ 750 palavras em inglês. Um texto de 100.000 palavras pode ter cerca de 133K tokens.
- Saída pesa mais no custo. A saída custa cerca de 6x mais que a entrada. Respostas longas encarecem rápido. Sempre que possível, use JSON estruturado ou respostas curtas.
Exemplo simples de cálculo:
custo_entrada = tokens_entrada / 1_000_000 * 1.50
custo_saida = tokens_saida / 1_000_000 * 9.00
custo_total = custo_entrada + custo_saida
Para entender o modo em lote do Gemini, veja O modo em lote da API Gemini chegou e é 50% mais barato.
Camada gratuita: quando usar
A camada gratuita do AI Studio está disponível com o Flash desde o primeiro dia. Limites no lançamento:
- 1.500 requisições por dia
- 1M tokens por minuto
- 15 requisições por minuto
Use a camada gratuita para:
- protótipos;
- projetos paralelos;
- validação de prompts;
- automações internas pequenas;
- testes de integração.
Se sua carga fica abaixo de 1.500 chamadas/dia, o custo direto é $0.
Características importantes:
- não exige cartão de crédito;
- usa o mesmo modelo
gemini-3.5-flashdo endpoint pago; - usa o mesmo padrão de SDK, mudando apenas a chave;
- prompts podem ser usados para melhorar modelos do Google, com opção de saída nas configurações do AI Studio;
- cotas podem mudar, então não projete produção crítica em cima desses números fixos.
Guias relacionados:
Modo em lote: como cortar cerca de 50%
Se a resposta não precisa ser em tempo real, use o modo em lote. Ele reduz o custo do Flash em aproximadamente metade.
Fluxo básico:
- Agrupe os prompts.
- Envie um job em lote com até 50.000 prompts.
- O Google processa em até 24 horas.
- Você paga cerca de 50% menos por tokens de entrada e saída.
Use modo em lote para:
- análise em massa de documentos;
- triagem de tickets;
- moderação de conteúdo;
- geração noturna de conteúdo para dashboards;
- reprocessamento de dados históricos;
- migrações;
- jobs internos sem interação humana imediata.
Evite modo em lote para:
- chat em tempo real;
- agentes interativos;
- interfaces de usuário;
- workflows que dependem de resposta imediata.
Regra prática: se o usuário não está esperando a resposta na tela, avalie lote.
Detalhes de configuração: guia de modo em lote.
Entrada em cache: economize em prompts repetidos
O cache de contexto ajuda quando seus prompts compartilham um prefixo grande e estático, por exemplo:
- prompt de sistema longo;
- documentação de referência;
- políticas internas;
- contrato ou manual reutilizado;
- instruções fixas para um agente.
Padrão típico:
- Armazene em cache um documento de referência de 100K tokens.
- Reutilize esse contexto em milhares de consultas.
- Pague taxa cheia apenas pela parte nova da pergunta.
Em aplicações RAG, quando os mesmos trechos aparecem em várias consultas, a economia de entrada pode ficar na faixa de 30% a 60%, dependendo da taxa de acerto do cache.
Cenários de custo reais
A seguir, cinco estimativas usando as taxas padrão do Gemini 3.5 Flash.
Cenário 1: chatbot de suporte ao cliente
Premissas:
- 10.000 mensagens de usuário por dia;
- 200 tokens médios de entrada por mensagem;
- 400 tokens médios de saída por resposta.
Cálculo diário:
Entrada = 10.000 × 200 × ($1.50 / 1M) = $3.00/dia
Saída = 10.000 × 400 × ($9.00 / 1M) = $36.00/dia
Total = ~$39/dia
Estimativa mensal:
$39 × 30 = ~$1.170/mês
Se essa carga puder rodar em lote, o custo cai para cerca de $585/mês. Com cache no prompt de sistema, ainda pode haver mais 20% a 30% de redução.
Cenário 2: SaaS de perguntas e respostas sobre documentos
Premissas:
- 1.000 documentos analisados por dia;
- cada documento tem 30K tokens;
- cada resposta tem 500 tokens.
Cálculo diário:
Entrada = 1.000 × 30.000 × ($1.50 / 1M) = $45.00/dia
Saída = 1.000 × 500 × ($9.00 / 1M) = $4.50/dia
Total = ~$50/dia
Estimativa mensal:
$50 × 30 = ~$1.500/mês
Aqui o contexto de 1M do Flash ajuda: você pode enviar documentos longos sem montar uma infraestrutura complexa de fragmentação. Em alguns casos, isso reduz custo operacional e simplifica a arquitetura em comparação com RAG fragmentado usando modelos mais caros.
Cenário 3: agente autônomo de longa duração
Premissas:
- uma execução do agente tem 50 turnos;
- cada turno usa 5K tokens de entrada;
- cada turno gera 1K token de saída;
- 200 execuções por dia.
Custo por execução:
Entrada = 50 × 5.000 × ($1.50 / 1M) = $0.375
Saída = 50 × 1.000 × ($9.00 / 1M) = $0.45
Total = ~$0.83 por execução
Custo diário:
200 × $0.83 = ~$165/dia
Custo mensal:
$165 × 30 = ~$4.950/mês
Para comparação, a mesma carga no Claude Opus 4.7, considerando ~$15/$75 por 1M tokens, ficaria próxima de $25 por execução, ou cerca de $5.000/dia. Essa é a diferença de custo agentiva que sustenta a afirmação do Google.
Cenário 4: pipeline de extração de gráficos
Premissas:
- 5.000 capturas de tela de dashboards por dia;
- cada imagem equivale a ~1.500 tokens de entrada;
- saída de 300 tokens em JSON estruturado.
Cálculo diário:
Entrada = 5.000 × 1.500 × ($1.50 / 1M) = $11.25/dia
Saída = 5.000 × 300 × ($9.00 / 1M) = $13.50/dia
Total = ~$25/dia
Estimativa mensal:
$25 × 30 = ~$750/mês
Com modo em lote:
~$750 / 2 = ~$375/mês
O raciocínio CharXiv em 84,2% indica que a qualidade se mantém para esse tipo de workload visual.
Cenário 5: geração de conteúdo em alto volume
Premissas:
- 100.000 artigos curtos por dia;
- 500 tokens de entrada por artigo;
- 2.000 tokens de saída por artigo.
Cálculo diário:
Entrada = 100.000 × 500 × ($1.50 / 1M) = $75/dia
Saída = 100.000 × 2.000 × ($9.00 / 1M) = $1.800/dia
Total = ~$1.875/dia
Estimativa mensal:
$1.875 × 30 = ~$56.250/mês
Com modo em lote:
~$56.250 / 2 = ~$28K/mês
Nesse volume, também vale testar roteamento por complexidade: tarefas rotineiras para modelos mais baratos, como 3.1 Flash-Lite, e Flash apenas para gerações mais difíceis.
Custo vs GPT-5.5 e Opus 4.7
Comparação direta de preço:
| Modelo | Entrada ($/1M) | Saída ($/1M) | Múltiplo vs Flash |
|---|---|---|---|
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1× |
| GPT-5.5 | ~$10 | ~$30 | 6.7× entrada, 3.3× saída |
| Claude Opus 4.7 | ~$15 | ~$75 | 10× entrada, 8.3× saída |
Aplicando o Cenário 1 de chatbot:
| Modelo | Custo diário estimado |
|---|---|
| Flash | $39/dia |
| GPT-5.5 | ~$140/dia |
| Opus 4.7 | ~$330/dia |
A diferença é relevante para workloads repetitivos. Modelos principais podem entregar qualidade melhor em tarefas difíceis, mas para fluxos comuns de suporte, extração, classificação e automação, o Flash tende a ser suficiente por uma fração do custo.
Leituras relacionadas:
Custo vs outras variantes do Gemini
| Modelo | Entrada ($/1M) | Saída ($/1M) | Quando usar |
|---|---|---|---|
| Gemini 3.1 Flash-Lite | ~$0.40 | ~$2.00 | Trabalhos rotineiros de alto volume |
| Gemini 3 Flash | ~$0.50 | ~$3.00 | Geração anterior, ainda sólida |
| Gemini 3.1 Pro | ~$2.00 | ~$12.00 | Trabalho intensivo em raciocínio antes do 3.5 Pro |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | Novo padrão para a maioria das cargas de trabalho |
| Gemini 3.5 Pro, junho de 2026 | A definir | A definir | Tarefas de raciocínio mais difíceis |
O Flash é mais caro que variantes Flash 3.x anteriores, mas ainda é consideravelmente mais barato que camadas Pro. Para muitas equipes, a troca é razoável: melhor capacidade que Flash 3.x, custo menor que Pro 3.x.
Links úteis:
Preços do Vertex AI em produção
Se você chamar o Flash pelo Vertex AI em vez do AI Studio, o preço por token é o mesmo. O que muda é o ambiente operacional.
Vertex AI oferece:
- autenticação por conta de serviço;
- logs de auditoria no Cloud Logging;
- controles de residência de dados;
- cotas personalizadas negociáveis em escala;
- integração com faturamento do Google Cloud.
Diferença importante:
- AI Studio tem camada gratuita;
- Vertex AI não tem camada gratuita, mas novas contas podem ter crédito de $300 por 90 dias.
Caminho recomendado para muitas equipes:
- Prototipe no AI Studio gratuito.
- Valide custo e qualidade.
- Migre para AI Studio pago quando precisar escalar.
- Use Vertex AI quando precisar de controles empresariais.
O comportamento do modelo é o mesmo entre esses caminhos.
Como otimizar custo na prática
Seis ações com impacto direto na conta:
- Use modo em lote sempre que a resposta não for em tempo real. É a otimização mais simples: cerca de 50% de desconto.
- Coloque prefixos longos em cache. Prompts de sistema, documentos de referência e instruções fixas são bons candidatos.
- Prefira JSON estruturado. O modelo escreve menos, a resposta fica mais fácil de validar e o custo cai.
- Roteie por complexidade. Tarefas fáceis para Flash-Lite, tarefas médias para Flash e tarefas muito difíceis para 3.5 Pro quando estiver disponível.
- Valide entradas antes de chamar a API. Não gaste tokens com payload quebrado. O Apidog ajuda a interceptar requisições inválidas antes que cheguem à API.
- Logue tokens por requisição. Registre entrada, saída, endpoint, usuário e tipo de prompt. Picos de custo normalmente vêm de poucos prompts fora do padrão.
Exemplo de middleware conceitual para registrar custo:
function estimateGeminiFlashCost({ inputTokens, outputTokens }) {
const inputCost = (inputTokens / 1_000_000) * 1.50;
const outputCost = (outputTokens / 1_000_000) * 9.00;
return {
inputCost,
outputCost,
totalCost: inputCost + outputCost,
};
}
// Exemplo
const usage = estimateGeminiFlashCost({
inputTokens: 5000,
outputTokens: 1000,
});
console.log(usage);
Para validar prompts e respostas antes de gastar chamadas repetidas, baixe o Apidog, crie uma requisição para seu endpoint Gemini e adicione asserções de formato de resposta. Reenviar a mesma requisição quebrada centenas de vezes durante debug é uma forma comum de consumir a cota gratuita em poucas horas.
Quando sair da camada gratuita
Atualize para uso pago quando um destes sinais aparecer:
- Você atinge 1.500 requisições/dia por vários dias seguidos. O custo pago tende a ser menor que o tempo gasto contornando cota.
- Você precisa de mais throughput. A camada gratuita limita a 15 RPM.
- Você precisa de residência de dados ou auditoria. Nesse caso, mova para Vertex AI em uma conta faturada.
Na prática, muitas equipes descobrem que $50–200/mês de Flash pago substituem bastante complexidade operacional da camada gratuita.
Riscos de preço
Três fatores podem alterar a estimativa:
- Mudança de cotas. O Google pode ajustar limites gratuitos com o tempo. Não dependa do número exato de 1.500/dia para produção.
- Lançamento do 3.5 Pro. Quando o Pro chegar, o posicionamento de preço do Flash pode mudar.
- Variação regional no Vertex AI. Preços podem variar por região. Algumas regiões podem ter prêmios de 10% a 20%.
Configure alertas de custo desde o primeiro dia:
- no AI Studio, acompanhe cotas do projeto;
- no Vertex AI, use Cloud Billing e budgets diários.
Conclusão
O Gemini 3.5 Flash é barato o suficiente para ser o ponto de partida de muitas cargas de IA em produção. Com taxas em torno de $1.50 por 1M tokens de entrada e $9 por 1M tokens de saída, ele fica abaixo de modelos de ponta mais caros em grande parte dos workloads comuns.
Para reduzir ainda mais a conta:
- use modo em lote quando houver tolerância a latência;
- aplique cache em contextos repetidos;
- gere saídas estruturadas;
- roteie tarefas simples para modelos mais baratos;
- monitore tokens por requisição.
Quando o Flash não for suficiente, misture camadas: Flash para o volume principal e modelos como GPT-5.5 ou Opus 4.7 para tarefas mais difíceis.
Plano prático para começar:
- Salve o endpoint Gemini 3.5 Flash no Apidog.
- Rode 20 prompts reais do seu produto.
- Registre tokens de entrada e saída.
- Extrapole o custo mensal.
- Compare com seu modelo atual.
- Decida quais rotas migram para Flash, Flash-Lite ou modelos mais fortes.
Esse teste costuma levar poucos dias e pode se pagar no primeiro ciclo de faturamento.

Top comments (0)