DEV Community

Cover image for Como Usar a API GPT-5.5
Lucas
Lucas

Posted on • Originally published at apidog.com

Como Usar a API GPT-5.5

O GPT-5.5 foi lançado em 23 de abril de 2026. Para desenvolvedores, a principal novidade é: a OpenAI abriu acesso ao modelo dentro do ChatGPT e do Codex no mesmo dia, e promete liberar as APIs de Respostas e Conclusões de Chat em breve. Este guia mostra exatamente como integrar o GPT-5.5 assim que as chaves estiverem liberadas e como os primeiros testadores já estão usando pelo login do Codex.

Experimente o Apidog hoje

Aqui você encontra os formatos dos endpoints, detalhes de autenticação, exemplos práticos em Python e Node.js, tabela completa de parâmetros, cálculo de custos no modo de raciocínio, tratamento de erros comuns e um fluxo de teste otimizado no Apidog para economizar créditos durante iterações.

Para uma visão geral do modelo, veja O que é GPT-5.5. Para acesso gratuito, confira Como usar a API do GPT-5.5 gratuitamente.

Em Resumo

  • O GPT-5.5 está disponível nos endpoints Respostas e Conclusões de Chat; use gpt-5.5 como ID do modelo. O Pro é gpt-5.5-pro.
  • Preço da API: $5/M tokens de entrada e $30/M tokens de saída; Pro: $30/M entrada e $180/M saída.
  • Janela de contexto: 1M tokens via API e 400K na CLI do Codex.
  • Enquanto a API não for geral, use o GPT-5.5 via Codex com login do ChatGPT.
  • Use o Apidog para pré-configurar coleções; o formato segue o GPT-5.4 com novo ID de modelo e bloco reasoning expandido.

Pré-requisitos

Antes de enviar sua primeira requisição, tenha estes pontos prontos:

  1. Conta de desenvolvedor OpenAI com plano faturável. A assinatura do ChatGPT Plus/Pro é separada da cobrança da API.
  2. Chave de API com acesso à família GPT-5. Para produção, use chaves de projeto, não de usuário.
  3. SDK atualizado com suporte ao gpt-5.5. Python: openai>=2.1.0. Node: openai@5.1.0 ou superior.
  4. Cliente de API para evitar poluir o terminal. Curl serve para testes rápidos; para iterações, use o Apidog.

Exporte sua chave de API:

export OPENAI_API_KEY="sk-proj-..."
Enter fullscreen mode Exit fullscreen mode

Endpoint e autenticação

Os endpoints são:

POST https://api.openai.com/v1/responses
POST https://api.openai.com/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode
  • Respostas: endpoint moderno, integra raciocínio, pesquisa web e uso de computador.
  • Conclusões de Chat: mantém compatibilidade com integrações legadas.

Para autenticação, use o Bearer Token. Exemplo de chamada via curl:

curl https://api.openai.com/v1/responses \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5.5",
    "input": "Summarize the last 10 releases of the openai/codex repo in three bullets.",
    "reasoning": { "effort": "medium" }
  }'
Enter fullscreen mode Exit fullscreen mode

Se a chamada for bem-sucedida, você receberá um JSON com um array output e um bloco usage detalhado. Erros retornam um envelope padrão com code e message.

Parâmetros da Requisição

Cada campo do JSON impacta custo ou comportamento. Veja o mapa completo:

Parâmetro Tipo Valores Notas
model string gpt-5.5, gpt-5.5-pro Obrigatório. Pro custa 6× mais.
input / messages string/array Prompt ou array de chat Obrigatório. input para Respostas, messages para Chat.
reasoning.effort string none, low, medium, high, xhigh Default: low. xhigh gera respostas mais profundas, mas mais caras.
max_output_tokens inteiro 1 – 128000 Limite de tokens na saída (não inclui raciocínio).
tools array Function, web_search, file_search, computer_use, code_interpreter Define ferramentas disponíveis para o modelo.
tool_choice string/objeto auto, none, ou nome de ferramenta Força uso de ferramenta específica.
response_format objeto { "type": "json_schema", "schema": {...} } Saída estruturada; modo estrito padrão.
stream booleano true / false Ativa eventos via streaming; tokens de raciocínio vêm separados.
user string Livre Para detecção de abuso; envie um ID de usuário hash.
metadata objeto Até 16 pares chave-valor Aparece nos logs e painel da OpenAI.
seed inteiro Qualquer int32 Determinismo suave — mesma semente, respostas próximas.
temperature número 0 – 2 Ignorado se reasoning.effort >= medium.

Os três campos mais críticos para custo: reasoning.effort, max_output_tokens e tools. Usar reasoning.effort: "high" ou "xhigh" pode aumentar em 3 a 8 vezes o número de tokens de saída.

Exemplo em Python

O SDK segue o padrão do GPT-5.4, mudando apenas o ID do modelo e a faixa de reasoning.effort:

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.5",
    input=[
        {
            "role": "system",
            "content": "You are a senior Go engineer. Answer in terse, runnable code.",
        },
        {
            "role": "user",
            "content": (
                "Write a worker pool with bounded concurrency and a context "
                "cancellation path. No third-party deps."
            ),
        },
    ],
    reasoning={"effort": "medium"},
    max_output_tokens=4000,
)

print(response.output_text)
print(response.usage.model_dump())
Enter fullscreen mode Exit fullscreen mode
  • response.output_text concatena as mensagens do output.
  • O bloco usage retorna contadores separados: input_tokens, output_tokens e reasoning_tokens.

Exemplo em Node.js

import OpenAI from "openai";

const client = new OpenAI();

const response = await client.responses.create({
  model: "gpt-5.5",
  input: [
    { role: "system", content: "You are a careful reviewer." },
    {
      role: "user",
      content:
        "Review this migration and flag any operation that would lock a write-heavy table for more than 200 ms.",
    },
  ],
  reasoning: { effort: "high" },
  tools: [{ type: "file_search" }],
  max_output_tokens: 6000,
});

console.log(response.output_text);
console.log(response.usage);
Enter fullscreen mode Exit fullscreen mode

Defina reasoning.effort como high em tarefas críticas de revisão.

Modo de raciocínio

No GPT-5.5, o modo de raciocínio é ativado via reasoning.effort com valor high ou xhigh — não há modelo separado. Controle por requisição:

  • Use medium para maioria dos casos (agentes, depuração, geração de documentos).
  • Reserve high/xhigh para pesquisa, revisão profunda ou cadeias de ferramentas longas.

Se o seu fluxo usa computer_use ou pesquisa web, vale investir em raciocínio alto para reduzir alucinações.

Saída estruturada

Saída JSON estrita é padrão. Sempre defina um schema para evitar retrabalho:

response = client.responses.create(
    model="gpt-5.5",
    input="Extract the title, speaker, and start time from this transcript chunk.",
    response_format={
        "type": "json_schema",
        "json_schema": {
            "name": "session_extract",
            "strict": True,
            "schema": {
                "type": "object",
                "required": ["title", "speaker", "start_time"],
                "properties": {
                    "title": {"type": "string"},
                    "speaker": {"type": "string"},
                    "start_time": {"type": "string", "format": "date-time"},
                },
            },
        },
    },
)
Enter fullscreen mode Exit fullscreen mode

Em pipelines integrados, sempre use schema para evitar loops de retrabalho.

Uso de ferramentas e agentes

A API permite cinco tipos de ferramentas:

  • web_search — busca real-time, com citações.
  • file_search — busca vetorial em arquivos.
  • code_interpreter — Python em sandbox.
  • computer_use — mouse, teclado e navegador via Operator.
  • function — funções callback customizadas.

No GPT-5.5, o modelo encadeia ferramentas de forma autônoma, melhorando 11% o sucesso em cadeias multi-etapas em relação ao 5.4 (ver The Decoder).

Tratamento de erros e novas tentativas

Prepare seu client para estes códigos de erro:

Código Significado Tentar novamente?
429 rate_limit_exceeded Limite de uso atingido Sim, com recuo exponencial + jitter
400 context_length_exceeded Input + output + reasoning > 1M tokens Não, reduza a entrada
500 server_error Erro transitório da OpenAI Sim, até 3 tentativas
403 policy_violation Recusado por política de segurança Não, reescreva o prompt

Tokens de raciocínio entram na conta da janela de contexto. Cuidado para não ultrapassar o limite com xhigh em entradas grandes.

Fluxo de trabalho de teste com Apidog

Como as chamadas do GPT-5.5 custam caro, otimize seu fluxo para evitar desperdício de tokens:

  1. Crie a requisição no Apidog, salve como coleção e defina o ambiente (dev/staging/prod).
  2. Use o mock server integrado para replicar a última resposta real enquanto ajusta código downstream.
  3. Só use chave real quando o schema estiver estável.

O Apidog integra com Claude Code e Cursor, tornando a coleção acessível no editor. Veja o passo a passo do Apidog no VS Code e a comparação Apidog vs. Postman.

Chamando o GPT-5.5 antes da API ser geral

Enquanto a API de Respostas não for liberada para todos, use o login do Codex. Veja o guia gratuito do Codex para instalar a CLI, autenticar com ChatGPT e selecionar o modelo.

FAQ

Existe um gpt-5.5-mini?

Não no lançamento. O gpt-5.4-mini segue como opção otimizada para custo.

Qual a janela de contexto?

1M tokens na API, 400K na CLI do Codex. Ambos incluem tokens de raciocínio.

Preciso reescrever meu código GPT-5.4?

Não. Apenas troque o ID do modelo, ajuste max_output_tokens e revise reasoning.effort conforme necessário.

Como reduzo o custo?

Três opções principais: Lote (50% off), Flex (50% off, fila mais lenta) e schemas estritos para evitar loops de retentativa. Veja o post de análise de preços do GPT-5.5.

Como acompanhar o anúncio da GA da API?

Fique de olho na comunidade OpenAI e na página oficial de preços da API.

Top comments (0)