Lucas

Posted on May 6 • Originally published at apidog.com

Como Acessar e Usar o GPT-5.5 Instant: Guia ChatGPT + API

A OpenAI trocou o "cérebro" padrão do ChatGPT em 5 de maio de 2026: o GPT-5.5 Instant substituiu o GPT-5.3 Instant, reduziu afirmações alucinatórias em prompts de alto risco em 52,5% e manteve a experiência de baixa latência. Para desenvolvedores, o mesmo modelo aparece na API como gpt-5.5, com janela de contexto de 1M de tokens e preço por milhão de tokens.

Experimente o Apidog hoje

Este guia mostra como acessar o GPT-5.5 Instant no ChatGPT, como controlar o comportamento Instant via API com reasoning.effort, como testar uma chamada funcional em Python/Node.js e como validar requisições antes de colocar em produção.

TL;DR

O GPT-5.5 Instant é o novo padrão do ChatGPT.
Usuários gratuitos recebem 10 mensagens a cada 5 horas.
Usuários Plus recebem 160 mensagens a cada 3 horas.
Usuários Pro, Business e Enterprise têm uso ilimitado, sujeito a salvaguardas contra abuso.
Na API, use model: "gpt-5.5" com reasoning.effort: "minimal" para comportamento similar ao Instant.
O preço padrão é US$ 5 por 1M tokens de entrada e US$ 30 por 1M tokens de saída.
A janela de contexto é de 1M de tokens, com até 128K tokens de saída por resposta.

O que é o GPT-5.5 Instant

O GPT-5.5 Instant é a variante da família GPT-5.5 otimizada para baixa latência. No ChatGPT, a OpenAI expõe três modos principais:

Instant: respostas rápidas, usado como padrão.
Thinking: mais raciocínio, maior latência.
Pro: versão com mais computação, restrita a níveis pagos.

O ponto principal para implementação não é apenas “mais inteligência”, mas previsibilidade. A OpenAI relata:

52,5% menos afirmações alucinatórias em prompts de alto risco nas áreas de medicina, direito e finanças em comparação com o GPT-5.3 Instant.
37,3% menos afirmações imprecisas em erros factuais sinalizados por usuários.

Isso importa quando você usa o modelo em fluxos com impacto real: suporte ao cliente, classificação de tickets, agentes com chamadas de API, análise de documentos ou interfaces públicas.

Como o Instant se relaciona com Thinking e Pro

O rótulo Instant existe porque a OpenAI usa roteamento automático. Em alguns casos, o ChatGPT pode alternar de Instant para GPT-5.5 Thinking quando o prompt exige mais raciocínio.

Na prática:

Use Instant quando prioridade for latência.
Use Thinking quando a tarefa exigir planejamento, síntese longa ou várias etapas.
Use Pro quando precisão adicional justificar custo e latência maiores.

Instant e Thinking compartilham a mesma base do GPT-5.5. A diferença é o orçamento de raciocínio, não apenas o limite de conhecimento.

Ambos oferecem:

Janela de contexto de 1M de tokens.
Até 128.000 tokens de saída por resposta.
Geração e depuração de código.
Pesquisa web por ferramenta de busca.
Manipulação de arquivos como PDF, imagem e planilhas.
Memória em sessões web Plus e Pro, com recursos opcionais de recuperação.

Para uma visão mais ampla da família GPT-5.5, veja a visão geral do GPT-5.5.

Como acessar o GPT-5.5 Instant no ChatGPT

O acesso padrão é direto:

Abra chatgpt.com.
Envie uma mensagem.
O ChatGPT usa o GPT-5.5 Instant automaticamente, salvo quando o roteador decide usar Thinking.

Limites por plano:

Plano	Limite do GPT-5.5 Instant	Após atingir o limite
Grátis	10 mensagens a cada 5 horas	Volta para GPT-5.5 mini
Plus	160 mensagens a cada 3 horas	Volta para GPT-5.5 mini
Pro	Ilimitado, sujeito a salvaguardas	Permanece no GPT-5.5
Business	Ilimitado, sujeito a salvaguardas	Permanece no GPT-5.5
Enterprise	Ilimitado, sujeito a salvaguardas	Permanece no GPT-5.5

Em contas Plus, Pro e Business, você também pode fixar o modelo pelo seletor no canto superior esquerdo do chat.

Fluxo prático para comparação:

Abra duas conversas.
Em uma, fixe GPT-5.5 Instant.
Na outra, fixe GPT-5.5 Thinking.
Envie o mesmo prompt.
Compare latência, estrutura da resposta e qualidade do raciocínio.

Quando o roteador automático usa Thinking

A OpenAI não publicou todas as regras de roteamento, mas o comportamento tende a mudar para Thinking quando o prompt:

Pede plano de várias etapas.
Exige uso encadeado de ferramentas.
Contém restrições ambíguas.
Envolve domínios de alto risco.
Usa contexto longo com síntese entre documentos.

Para chat comum, o roteamento automático funciona bem. Para produto em produção, prefira controle explícito via API.

Como chamar o GPT-5.5 Instant pela API

Na API, não existe gpt-5.5-instant.

Use:

"model": "gpt-5.5"

E controle o comportamento com:

"reasoning": {
  "effort": "minimal"
}

Valores aceitos:

minimal: comportamento mais próximo do Instant.
low: um pouco mais de raciocínio.
medium: equilíbrio entre raciocínio e latência.
high: comportamento mais próximo do Thinking.

O GPT-5.5 está disponível em dois endpoints:

Responses API (/v1/responses): recomendado para novos projetos.
Chat Completions API (/v1/chat/completions): mantido para compatibilidade.

Preços do GPT-5.5

Nível	Entrada	Saída
Padrão	US$ 5,00 / 1M tokens	US$ 30,00 / 1M tokens
Batch	US$ 2,50 / 1M tokens	US$ 15,00 / 1M tokens
Flex	US$ 2,50 / 1M tokens	US$ 15,00 / 1M tokens
Priority	US$ 12,50 / 1M tokens	US$ 75,00 / 1M tokens

Atenção ao limite de 272K tokens de entrada: prompts acima desse ponto são cobrados com multiplicador de 2x na entrada e 1,5x na saída pelo restante da sessão, exceto no nível Priority.

Para comparação de custos com outros modelos, veja o detalhamento de preços do GPT-5.5.

Exemplo mínimo em Python

Você precisa de uma chave da plataforma da OpenAI e do SDK oficial.

Instale o SDK:

pip install --upgrade openai
export OPENAI_API_KEY="sk-..."

Faça a chamada com a Responses API:

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.5",
    reasoning={"effort": "minimal"},
    input=[
        {
            "role": "user",
            "content": "Resuma esta entrada do changelog em 3 tópicos: ..."
        }
    ],
    max_output_tokens=400,
)

print(response.output_text)

Use reasoning.effort: "minimal" para otimizar latência. Aumente para "medium" ou "high" quando a tarefa exigir raciocínio mais profundo.

Exemplo mínimo em Node.js

import OpenAI from "openai";

const client = new OpenAI();

const response = await client.responses.create({
  model: "gpt-5.5",
  reasoning: { effort: "minimal" },
  input: [
    {
      role: "user",
      content: "Traduza esta descrição de produto para o espanhol, mantendo o HTML intacto: ..."
    }
  ],
  max_output_tokens: 600,
});

console.log(response.output_text);

Streaming com GPT-5.5 Instant

Streaming é útil quando você quer reduzir a latência percebida na UI.

from openai import OpenAI

client = OpenAI()

stream = client.responses.create(
    model="gpt-5.5",
    reasoning={"effort": "minimal"},
    input=[
        {
            "role": "user",
            "content": "Rascunhe uma nota de lançamento para a v2.7..."
        }
    ],
    stream=True,
)

for event in stream:
    if event.type == "response.output_text.delta":
        print(event.delta, end="", flush=True)

Padrão recomendado para produto:

Use stream: true.
Envie deltas para a UI via SSE ou WebSocket.
Defina max_output_tokens.
Registre latência, tokens de entrada e tokens de saída.
Salve o prompt usado para auditoria e reprodução.

Para uso gratuito da API e detalhes de cotas, consulte o guia de acesso gratuito ao GPT-5.5.

Como testar requisições do GPT-5.5 Instant com Apidog

Antes de colocar uma integração em produção, trate o modelo como dependência externa: teste, versione e monitore.

O Apidog ajuda a criar requisições reproduzíveis para a API da OpenAI sem depender de scripts temporários.

Passo 1: importe a especificação OpenAPI

O Apidog suporta OpenAPI 3.x. Importe a especificação da Responses API para obter endpoints, parâmetros e schemas com autocomplete.

Passo 2: salve a chave como segredo

Crie um ambiente e adicione:

OPENAI_API_KEY=sk-...

Depois referencie no header:

Authorization: Bearer {{OPENAI_API_KEY}}

Isso evita hardcode de credenciais e permite alternar entre staging e produção.

Passo 3: crie uma requisição GPT-5.5 Instant

Configure o corpo:

{
  "model": "gpt-5.5",
  "reasoning": {
    "effort": "minimal"
  },
  "input": [
    {
      "role": "user",
      "content": "Resuma este texto em 5 bullets: ..."
    }
  ],
  "max_output_tokens": 500
}

Salve como template no projeto.

Passo 4: compare esforços de raciocínio

Duplique a requisição e altere apenas:

"reasoning": {
  "effort": "high"
}

Compare:

Latência.
Tamanho da resposta.
Qualidade.
Tokens consumidos.
Diferenças no JSON de saída.

Passo 5: automatize asserções

Crie cenários de teste para validar campos esperados.

Exemplos de asserções úteis:

A resposta não deve estar vazia.
A saída deve conter JSON válido.
O campo category deve estar dentro de uma lista permitida.
A resposta deve ter menos de N caracteres.
O status HTTP deve ser 200.

Passo 6: integre ao CI

Execute os cenários em pipeline para detectar regressões quando:

O prompt mudar.
O schema mudar.
A OpenAI atualizar o modelo.
Você trocar reasoning.effort.

Para aprofundar testes de API, veja teste de API para engenheiros de QA. Você também pode baixar o Apidog em Download Apidog.

Técnicas práticas para produção

1. Fixe `reasoning.effort` por rota

Não use "high" em tudo.

Exemplo:

const effortByRoute = {
  "/support/classify": "minimal",
  "/support/escalate": "high",
  "/docs/search": "low",
  "/code/review": "medium"
};

Isso reduz custo sem prejudicar tarefas simples.

2. Sempre defina `max_output_tokens`

O GPT-5.5 pode gerar até 128K tokens de saída. Em produto, isso é risco de custo.

{
  "max_output_tokens": 600
}

Defina o menor limite aceitável para sua UI.

3. Evite prompts acima de 272K tokens

Para RAG, prefira:

Recuperar trechos relevantes.
Dividir documentos longos.
Resumir antes de enviar.
Usar cache quando possível.
Evitar anexar documentos inteiros sem necessidade.

4. Use Batch para tarefas offline

Bom para:

Classificação em massa.
Resumos de relatórios.
Backfills.
Processamento assíncrono.
Enriquecimento de dados.

Batch reduz o custo, mas não é ideal para fluxos interativos.

5. Use Priority apenas para caminhos críticos

Priority custa mais. Use quando a latência impactar diretamente receita ou experiência do usuário.

Exemplos:

Chat em tempo real.
Copilotos dentro de produto.
Assistentes de suporte ao vivo.
Fluxos com SLA rígido.

6. Faça streaming para reduzir latência percebida

Mesmo que a resposta completa demore, o usuário percebe rapidez quando vê o primeiro token cedo.

Arquitetura comum:

OpenAI Responses API -> Backend -> SSE/WebSocket -> Frontend

Erros comuns

Evite estes padrões:

Usar gpt-5.5-pro para prompts simples.
Não definir reasoning.effort.
Deixar max_output_tokens sem limite.
Colocar a chave da API no código-fonte.
Não registrar prompt, modelo e esforço usados.
Testar apenas manualmente antes de fazer deploy.
Enviar contexto longo sem medir custo.
Não validar saída estruturada com asserções.

Alternativas ao GPT-5.5 Instant

Modelo	Entrada	Saída	Contexto	Ponto forte
GPT-5.5 Instant	US$ 5,00 / 1M	US$ 30,00 / 1M	1M	Padrão no ChatGPT, baixa alucinação, amplo uso de ferramentas
GPT-5.5 Pro	US$ 30,00 / 1M	US$ 180,00 / 1M	1M	Maior precisão na linha OpenAI
Gemini 3 Flash Preview	varia	varia	1M	Multimodal rápido e integração com Google Cloud
DeepSeek V4	baixo	baixo	128K	Custo bruto menor em pilhas controladas

Escolha prática:

Use GPT-5.5 Instant para confiabilidade, ferramentas e baixa latência.
Use GPT-5.5 Pro quando precisão justificar o custo.
Use Gemini 3 Flash Preview em workloads multimodais no ecossistema Google.
Use DeepSeek V4 quando custo e controle da inferência forem prioridade.

Casos de uso reais

Triagem de suporte

Use reasoning.effort: "minimal" para classificar tickets por intenção:

{
  "model": "gpt-5.5",
  "reasoning": {
    "effort": "minimal"
  },
  "input": [
    {
      "role": "system",
      "content": "Classifique tickets de suporte em billing, bug, feature_request ou account_access. Responda apenas JSON."
    },
    {
      "role": "user",
      "content": "Fui cobrado duas vezes este mês e quero reembolso."
    }
  ],
  "max_output_tokens": 100
}

Saída esperada:

{
  "category": "billing",
  "priority": "high"
}

Perguntas e respostas de documentação

Use contexto recuperado por RAG e peça respostas curtas com citações internas.

{
  "model": "gpt-5.5",
  "reasoning": {
    "effort": "low"
  },
  "input": [
    {
      "role": "system",
      "content": "Responda usando apenas o contexto fornecido. Se não souber, diga que não encontrou a informação."
    },
    {
      "role": "user",
      "content": "Contexto: ...\n\nPergunta: Como configuro autenticação por token?"
    }
  ],
  "max_output_tokens": 500
}

Revisão de código

Use low ou medium, dependendo do risco.

{
  "model": "gpt-5.5",
  "reasoning": {
    "effort": "medium"
  },
  "input": [
    {
      "role": "system",
      "content": "Revise o código procurando bugs, riscos de segurança e melhorias simples. Seja objetivo."
    },
    {
      "role": "user",
      "content": "```

js\n// código aqui\n

```"
    }
  ],
  "max_output_tokens": 800
}

Combine com a extensão Apidog VS Code para testar APIs diretamente durante a revisão.

Checklist de implementação

Antes de subir para produção:

[ ] Defina model: "gpt-5.5".
[ ] Defina reasoning.effort explicitamente.
[ ] Configure max_output_tokens.
[ ] Use variável de ambiente para a chave da API.
[ ] Registre tokens, latência e status HTTP.
[ ] Crie testes reproduzíveis no Apidog.
[ ] Adicione asserções de saída.
[ ] Teste streaming se a UI for interativa.
[ ] Calcule custo para pior caso.
[ ] Evite contexto acima de 272K tokens sem necessidade.

Conclusão

O GPT-5.5 Instant é o caminho mais simples para usar o novo modelo da OpenAI com baixa latência. No ChatGPT, ele já é o padrão. Na API, use gpt-5.5 com:

"reasoning": {
  "effort": "minimal"
}

O restante é engenharia: controle de custo, limite de tokens, segurança de credenciais, testes reproduzíveis e observabilidade.

Pontos principais:

O GPT-5.5 Instant substitui o GPT-5.3 Instant no ChatGPT.
Ele reduz afirmações alucinatórias em prompts de alto risco.
A API usa o identificador gpt-5.5.
O comportamento Instant é controlado com reasoning.effort: "minimal".
O preço padrão é US$ 5 / US$ 30 por 1M tokens de entrada/saída.
A janela de contexto de 1M tokens ajuda em fluxos de RAG.
O Apidog permite testar, versionar e automatizar requisições antes do deploy.

Se você é desenvolvedor, o próximo passo é criar uma chave de API, instalar o Apidog e salvar sua primeira requisição gpt-5.5 como template. A referência completa está no guia da API GPT-5.5, e o passo a passo de créditos está no acesso gratuito ao GPT-5.5.

FAQ

O GPT-5.5 Instant é gratuito?

Sim, com limite. Contas gratuitas do ChatGPT recebem 10 mensagens a cada 5 horas. Depois disso, a conversa volta para GPT-5.5 mini até o limite reiniciar.

Qual é o nome do modelo na API?

Use gpt-5.5. Não existe gpt-5.5-instant separado. Para comportamento Instant, defina:

"reasoning": {
  "effort": "minimal"
}

A referência completa está no guia da API GPT-5.5.

Qual é a diferença entre GPT-5.5 Instant e GPT-5.5 Thinking?

É o mesmo modelo base com diferentes orçamentos de raciocínio. Instant prioriza latência. Thinking usa mais raciocínio antes de responder. Pro adiciona ainda mais computação e tem preço maior.

O GPT-5.5 Instant suporta ferramentas?

Sim. O modelo pode usar ferramentas, pesquisa web, interpretadores de código e arquivos. Na Responses API, isso é configurado pelo parâmetro tools.

Qual é a janela de contexto?

A janela de contexto é de 1 milhão de tokens de entrada, com até 128.000 tokens de saída por resposta.

Posso fixar o GPT-5.5 Instant no ChatGPT?

Sim, em planos Plus, Pro e Business. Use o seletor de modelos no cabeçalho do chat. Contas gratuitas dependem do roteador automático.

Como testar antes de implantar?

Salve a requisição no Apidog, configure a chave como segredo de ambiente, adicione asserções e execute os testes em staging ou CI.

O que acontece quando o roteador muda de Instant para Thinking?

Você pode notar maior tempo até o primeiro token. No ChatGPT, isso acontece automaticamente quando o prompt exige mais raciocínio. Na API, defina reasoning.effort explicitamente para manter comportamento reproduzível.