A OpenAI trocou o "cérebro" padrão do ChatGPT em 5 de maio de 2026: o GPT-5.5 Instant substituiu o GPT-5.3 Instant, reduziu afirmações alucinatórias em prompts de alto risco em 52,5% e manteve a experiência de baixa latência. Para desenvolvedores, o mesmo modelo aparece na API como gpt-5.5, com janela de contexto de 1M de tokens e preço por milhão de tokens.
Este guia mostra como acessar o GPT-5.5 Instant no ChatGPT, como controlar o comportamento Instant via API com reasoning.effort, como testar uma chamada funcional em Python/Node.js e como validar requisições antes de colocar em produção.
TL;DR
- O GPT-5.5 Instant é o novo padrão do ChatGPT.
- Usuários gratuitos recebem 10 mensagens a cada 5 horas.
- Usuários Plus recebem 160 mensagens a cada 3 horas.
- Usuários Pro, Business e Enterprise têm uso ilimitado, sujeito a salvaguardas contra abuso.
- Na API, use
model: "gpt-5.5"comreasoning.effort: "minimal"para comportamento similar ao Instant. - O preço padrão é US$ 5 por 1M tokens de entrada e US$ 30 por 1M tokens de saída.
- A janela de contexto é de 1M de tokens, com até 128K tokens de saída por resposta.
O que é o GPT-5.5 Instant
O GPT-5.5 Instant é a variante da família GPT-5.5 otimizada para baixa latência. No ChatGPT, a OpenAI expõe três modos principais:
- Instant: respostas rápidas, usado como padrão.
- Thinking: mais raciocínio, maior latência.
- Pro: versão com mais computação, restrita a níveis pagos.
O ponto principal para implementação não é apenas “mais inteligência”, mas previsibilidade. A OpenAI relata:
- 52,5% menos afirmações alucinatórias em prompts de alto risco nas áreas de medicina, direito e finanças em comparação com o GPT-5.3 Instant.
- 37,3% menos afirmações imprecisas em erros factuais sinalizados por usuários.
Isso importa quando você usa o modelo em fluxos com impacto real: suporte ao cliente, classificação de tickets, agentes com chamadas de API, análise de documentos ou interfaces públicas.
Como o Instant se relaciona com Thinking e Pro
O rótulo Instant existe porque a OpenAI usa roteamento automático. Em alguns casos, o ChatGPT pode alternar de Instant para GPT-5.5 Thinking quando o prompt exige mais raciocínio.
Na prática:
- Use Instant quando prioridade for latência.
- Use Thinking quando a tarefa exigir planejamento, síntese longa ou várias etapas.
- Use Pro quando precisão adicional justificar custo e latência maiores.
Instant e Thinking compartilham a mesma base do GPT-5.5. A diferença é o orçamento de raciocínio, não apenas o limite de conhecimento.
Ambos oferecem:
- Janela de contexto de 1M de tokens.
- Até 128.000 tokens de saída por resposta.
- Geração e depuração de código.
- Pesquisa web por ferramenta de busca.
- Manipulação de arquivos como PDF, imagem e planilhas.
- Memória em sessões web Plus e Pro, com recursos opcionais de recuperação.
Para uma visão mais ampla da família GPT-5.5, veja a visão geral do GPT-5.5.
Como acessar o GPT-5.5 Instant no ChatGPT
O acesso padrão é direto:
- Abra chatgpt.com.
- Envie uma mensagem.
- O ChatGPT usa o GPT-5.5 Instant automaticamente, salvo quando o roteador decide usar Thinking.
Limites por plano:
| Plano | Limite do GPT-5.5 Instant | Após atingir o limite |
|---|---|---|
| Grátis | 10 mensagens a cada 5 horas | Volta para GPT-5.5 mini |
| Plus | 160 mensagens a cada 3 horas | Volta para GPT-5.5 mini |
| Pro | Ilimitado, sujeito a salvaguardas | Permanece no GPT-5.5 |
| Business | Ilimitado, sujeito a salvaguardas | Permanece no GPT-5.5 |
| Enterprise | Ilimitado, sujeito a salvaguardas | Permanece no GPT-5.5 |
Em contas Plus, Pro e Business, você também pode fixar o modelo pelo seletor no canto superior esquerdo do chat.
Fluxo prático para comparação:
- Abra duas conversas.
- Em uma, fixe GPT-5.5 Instant.
- Na outra, fixe GPT-5.5 Thinking.
- Envie o mesmo prompt.
- Compare latência, estrutura da resposta e qualidade do raciocínio.
Quando o roteador automático usa Thinking
A OpenAI não publicou todas as regras de roteamento, mas o comportamento tende a mudar para Thinking quando o prompt:
- Pede plano de várias etapas.
- Exige uso encadeado de ferramentas.
- Contém restrições ambíguas.
- Envolve domínios de alto risco.
- Usa contexto longo com síntese entre documentos.
Para chat comum, o roteamento automático funciona bem. Para produto em produção, prefira controle explícito via API.
Como chamar o GPT-5.5 Instant pela API
Na API, não existe gpt-5.5-instant.
Use:
"model": "gpt-5.5"
E controle o comportamento com:
"reasoning": {
"effort": "minimal"
}
Valores aceitos:
-
minimal: comportamento mais próximo do Instant. -
low: um pouco mais de raciocínio. -
medium: equilíbrio entre raciocínio e latência. -
high: comportamento mais próximo do Thinking.
O GPT-5.5 está disponível em dois endpoints:
-
Responses API (
/v1/responses): recomendado para novos projetos. -
Chat Completions API (
/v1/chat/completions): mantido para compatibilidade.
Preços do GPT-5.5
| Nível | Entrada | Saída |
|---|---|---|
| Padrão | US$ 5,00 / 1M tokens | US$ 30,00 / 1M tokens |
| Batch | US$ 2,50 / 1M tokens | US$ 15,00 / 1M tokens |
| Flex | US$ 2,50 / 1M tokens | US$ 15,00 / 1M tokens |
| Priority | US$ 12,50 / 1M tokens | US$ 75,00 / 1M tokens |
Atenção ao limite de 272K tokens de entrada: prompts acima desse ponto são cobrados com multiplicador de 2x na entrada e 1,5x na saída pelo restante da sessão, exceto no nível Priority.
Para comparação de custos com outros modelos, veja o detalhamento de preços do GPT-5.5.
Exemplo mínimo em Python
Você precisa de uma chave da plataforma da OpenAI e do SDK oficial.
Instale o SDK:
pip install --upgrade openai
export OPENAI_API_KEY="sk-..."
Faça a chamada com a Responses API:
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5.5",
reasoning={"effort": "minimal"},
input=[
{
"role": "user",
"content": "Resuma esta entrada do changelog em 3 tópicos: ..."
}
],
max_output_tokens=400,
)
print(response.output_text)
Use reasoning.effort: "minimal" para otimizar latência. Aumente para "medium" ou "high" quando a tarefa exigir raciocínio mais profundo.
Exemplo mínimo em Node.js
import OpenAI from "openai";
const client = new OpenAI();
const response = await client.responses.create({
model: "gpt-5.5",
reasoning: { effort: "minimal" },
input: [
{
role: "user",
content: "Traduza esta descrição de produto para o espanhol, mantendo o HTML intacto: ..."
}
],
max_output_tokens: 600,
});
console.log(response.output_text);
Streaming com GPT-5.5 Instant
Streaming é útil quando você quer reduzir a latência percebida na UI.
from openai import OpenAI
client = OpenAI()
stream = client.responses.create(
model="gpt-5.5",
reasoning={"effort": "minimal"},
input=[
{
"role": "user",
"content": "Rascunhe uma nota de lançamento para a v2.7..."
}
],
stream=True,
)
for event in stream:
if event.type == "response.output_text.delta":
print(event.delta, end="", flush=True)
Padrão recomendado para produto:
- Use
stream: true. - Envie deltas para a UI via SSE ou WebSocket.
- Defina
max_output_tokens. - Registre latência, tokens de entrada e tokens de saída.
- Salve o prompt usado para auditoria e reprodução.
Para uso gratuito da API e detalhes de cotas, consulte o guia de acesso gratuito ao GPT-5.5.
Como testar requisições do GPT-5.5 Instant com Apidog
Antes de colocar uma integração em produção, trate o modelo como dependência externa: teste, versione e monitore.
O Apidog ajuda a criar requisições reproduzíveis para a API da OpenAI sem depender de scripts temporários.
Passo 1: importe a especificação OpenAPI
O Apidog suporta OpenAPI 3.x. Importe a especificação da Responses API para obter endpoints, parâmetros e schemas com autocomplete.
Passo 2: salve a chave como segredo
Crie um ambiente e adicione:
OPENAI_API_KEY=sk-...
Depois referencie no header:
Authorization: Bearer {{OPENAI_API_KEY}}
Isso evita hardcode de credenciais e permite alternar entre staging e produção.
Passo 3: crie uma requisição GPT-5.5 Instant
Configure o corpo:
{
"model": "gpt-5.5",
"reasoning": {
"effort": "minimal"
},
"input": [
{
"role": "user",
"content": "Resuma este texto em 5 bullets: ..."
}
],
"max_output_tokens": 500
}
Salve como template no projeto.
Passo 4: compare esforços de raciocínio
Duplique a requisição e altere apenas:
"reasoning": {
"effort": "high"
}
Compare:
- Latência.
- Tamanho da resposta.
- Qualidade.
- Tokens consumidos.
- Diferenças no JSON de saída.
Passo 5: automatize asserções
Crie cenários de teste para validar campos esperados.
Exemplos de asserções úteis:
- A resposta não deve estar vazia.
- A saída deve conter JSON válido.
- O campo
categorydeve estar dentro de uma lista permitida. - A resposta deve ter menos de N caracteres.
- O status HTTP deve ser
200.
Passo 6: integre ao CI
Execute os cenários em pipeline para detectar regressões quando:
- O prompt mudar.
- O schema mudar.
- A OpenAI atualizar o modelo.
- Você trocar
reasoning.effort.
Para aprofundar testes de API, veja teste de API para engenheiros de QA. Você também pode baixar o Apidog em Download Apidog.
Técnicas práticas para produção
1. Fixe reasoning.effort por rota
Não use "high" em tudo.
Exemplo:
const effortByRoute = {
"/support/classify": "minimal",
"/support/escalate": "high",
"/docs/search": "low",
"/code/review": "medium"
};
Isso reduz custo sem prejudicar tarefas simples.
2. Sempre defina max_output_tokens
O GPT-5.5 pode gerar até 128K tokens de saída. Em produto, isso é risco de custo.
{
"max_output_tokens": 600
}
Defina o menor limite aceitável para sua UI.
3. Evite prompts acima de 272K tokens
Para RAG, prefira:
- Recuperar trechos relevantes.
- Dividir documentos longos.
- Resumir antes de enviar.
- Usar cache quando possível.
- Evitar anexar documentos inteiros sem necessidade.
4. Use Batch para tarefas offline
Bom para:
- Classificação em massa.
- Resumos de relatórios.
- Backfills.
- Processamento assíncrono.
- Enriquecimento de dados.
Batch reduz o custo, mas não é ideal para fluxos interativos.
5. Use Priority apenas para caminhos críticos
Priority custa mais. Use quando a latência impactar diretamente receita ou experiência do usuário.
Exemplos:
- Chat em tempo real.
- Copilotos dentro de produto.
- Assistentes de suporte ao vivo.
- Fluxos com SLA rígido.
6. Faça streaming para reduzir latência percebida
Mesmo que a resposta completa demore, o usuário percebe rapidez quando vê o primeiro token cedo.
Arquitetura comum:
OpenAI Responses API -> Backend -> SSE/WebSocket -> Frontend
Erros comuns
Evite estes padrões:
- Usar
gpt-5.5-propara prompts simples. - Não definir
reasoning.effort. - Deixar
max_output_tokenssem limite. - Colocar a chave da API no código-fonte.
- Não registrar prompt, modelo e esforço usados.
- Testar apenas manualmente antes de fazer deploy.
- Enviar contexto longo sem medir custo.
- Não validar saída estruturada com asserções.
Alternativas ao GPT-5.5 Instant
| Modelo | Entrada | Saída | Contexto | Ponto forte |
|---|---|---|---|---|
| GPT-5.5 Instant | US$ 5,00 / 1M | US$ 30,00 / 1M | 1M | Padrão no ChatGPT, baixa alucinação, amplo uso de ferramentas |
| GPT-5.5 Pro | US$ 30,00 / 1M | US$ 180,00 / 1M | 1M | Maior precisão na linha OpenAI |
| Gemini 3 Flash Preview | varia | varia | 1M | Multimodal rápido e integração com Google Cloud |
| DeepSeek V4 | baixo | baixo | 128K | Custo bruto menor em pilhas controladas |
Escolha prática:
- Use GPT-5.5 Instant para confiabilidade, ferramentas e baixa latência.
- Use GPT-5.5 Pro quando precisão justificar o custo.
- Use Gemini 3 Flash Preview em workloads multimodais no ecossistema Google.
- Use DeepSeek V4 quando custo e controle da inferência forem prioridade.
Casos de uso reais
Triagem de suporte
Use reasoning.effort: "minimal" para classificar tickets por intenção:
{
"model": "gpt-5.5",
"reasoning": {
"effort": "minimal"
},
"input": [
{
"role": "system",
"content": "Classifique tickets de suporte em billing, bug, feature_request ou account_access. Responda apenas JSON."
},
{
"role": "user",
"content": "Fui cobrado duas vezes este mês e quero reembolso."
}
],
"max_output_tokens": 100
}
Saída esperada:
{
"category": "billing",
"priority": "high"
}
Perguntas e respostas de documentação
Use contexto recuperado por RAG e peça respostas curtas com citações internas.
{
"model": "gpt-5.5",
"reasoning": {
"effort": "low"
},
"input": [
{
"role": "system",
"content": "Responda usando apenas o contexto fornecido. Se não souber, diga que não encontrou a informação."
},
{
"role": "user",
"content": "Contexto: ...\n\nPergunta: Como configuro autenticação por token?"
}
],
"max_output_tokens": 500
}
Revisão de código
Use low ou medium, dependendo do risco.
{
"model": "gpt-5.5",
"reasoning": {
"effort": "medium"
},
"input": [
{
"role": "system",
"content": "Revise o código procurando bugs, riscos de segurança e melhorias simples. Seja objetivo."
},
{
"role": "user",
"content": "```
js\n// código aqui\n
```"
}
],
"max_output_tokens": 800
}
Combine com a extensão Apidog VS Code para testar APIs diretamente durante a revisão.
Checklist de implementação
Antes de subir para produção:
- [ ] Defina
model: "gpt-5.5". - [ ] Defina
reasoning.effortexplicitamente. - [ ] Configure
max_output_tokens. - [ ] Use variável de ambiente para a chave da API.
- [ ] Registre tokens, latência e status HTTP.
- [ ] Crie testes reproduzíveis no Apidog.
- [ ] Adicione asserções de saída.
- [ ] Teste streaming se a UI for interativa.
- [ ] Calcule custo para pior caso.
- [ ] Evite contexto acima de 272K tokens sem necessidade.
Conclusão
O GPT-5.5 Instant é o caminho mais simples para usar o novo modelo da OpenAI com baixa latência. No ChatGPT, ele já é o padrão. Na API, use gpt-5.5 com:
"reasoning": {
"effort": "minimal"
}
O restante é engenharia: controle de custo, limite de tokens, segurança de credenciais, testes reproduzíveis e observabilidade.
Pontos principais:
- O GPT-5.5 Instant substitui o GPT-5.3 Instant no ChatGPT.
- Ele reduz afirmações alucinatórias em prompts de alto risco.
- A API usa o identificador
gpt-5.5. - O comportamento Instant é controlado com
reasoning.effort: "minimal". - O preço padrão é US$ 5 / US$ 30 por 1M tokens de entrada/saída.
- A janela de contexto de 1M tokens ajuda em fluxos de RAG.
- O Apidog permite testar, versionar e automatizar requisições antes do deploy.
Se você é desenvolvedor, o próximo passo é criar uma chave de API, instalar o Apidog e salvar sua primeira requisição gpt-5.5 como template. A referência completa está no guia da API GPT-5.5, e o passo a passo de créditos está no acesso gratuito ao GPT-5.5.
FAQ
O GPT-5.5 Instant é gratuito?
Sim, com limite. Contas gratuitas do ChatGPT recebem 10 mensagens a cada 5 horas. Depois disso, a conversa volta para GPT-5.5 mini até o limite reiniciar.
Qual é o nome do modelo na API?
Use gpt-5.5. Não existe gpt-5.5-instant separado. Para comportamento Instant, defina:
"reasoning": {
"effort": "minimal"
}
A referência completa está no guia da API GPT-5.5.
Qual é a diferença entre GPT-5.5 Instant e GPT-5.5 Thinking?
É o mesmo modelo base com diferentes orçamentos de raciocínio. Instant prioriza latência. Thinking usa mais raciocínio antes de responder. Pro adiciona ainda mais computação e tem preço maior.
O GPT-5.5 Instant suporta ferramentas?
Sim. O modelo pode usar ferramentas, pesquisa web, interpretadores de código e arquivos. Na Responses API, isso é configurado pelo parâmetro tools.
Qual é a janela de contexto?
A janela de contexto é de 1 milhão de tokens de entrada, com até 128.000 tokens de saída por resposta.
Posso fixar o GPT-5.5 Instant no ChatGPT?
Sim, em planos Plus, Pro e Business. Use o seletor de modelos no cabeçalho do chat. Contas gratuitas dependem do roteador automático.
Como testar antes de implantar?
Salve a requisição no Apidog, configure a chave como segredo de ambiente, adicione asserções e execute os testes em staging ou CI.
O que acontece quando o roteador muda de Instant para Thinking?
Você pode notar maior tempo até o primeiro token. No ChatGPT, isso acontece automaticamente quando o prompt exige mais raciocínio. Na API, defina reasoning.effort explicitamente para manter comportamento reproduzível.




Top comments (0)