Roobia

Posted on Apr 24 • Originally published at apidog.com

Cómo Usar la API de GPT-5.5

GPT-5.5 se lanzó el 23 de abril de 2026. Para desarrolladores, la noticia clave es: OpenAI abrió el modelo dentro de ChatGPT y Codex el mismo día, y las API de Responses y Chat Completions estarán disponibles "muy pronto". Esta guía es para que prepares tu integración: cómo llamar a GPT-5.5 en cuanto activen las llaves de API, y cómo los primeros testers están usando el modelo hoy a través del login de Codex.

Prueba Apidog hoy

Obtendrás ejemplos de endpoints, autenticación, código en Python y Node, tabla de parámetros, cálculo de precios en modo reasoning, manejo de errores y un flujo de pruebas en Apidog para ahorrar créditos en cada iteración.

Para una visión general del modelo, revisa Qué es GPT-5.5. Si buscas ruta gratuita, consulta Cómo usar la API de GPT-5.5 gratis.

En resumen

GPT-5.5 está disponible en los endpoints Responses y Chat Completions; usa el ID de modelo gpt-5.5. La versión Pro es gpt-5.5-pro.
Precios: $5/M entrada y $30/M salida; Pro cuesta $30/M entrada y $180/M salida.
Ventana de contexto: 1M de tokens vía API, 400K vía Codex CLI.
Antes del despliegue general de la API, puedes usar GPT-5.5 vía Codex con login de ChatGPT.
Usa Apidog para construir tu colección; la solicitud es igual a GPT-5.4 pero con nuevo modelo y bloque reasoning expandido.

Requisitos previos

Antes de tu primera llamada:

Cuenta de desarrollador de OpenAI con facturación activa. ChatGPT Plus/Pro es independiente; necesitas ambas si quieres UI y API.
Clave API con acceso a modelos GPT-5. Preferible clave de proyecto para producción.
SDK actualizado: En Python openai>=2.1.0; en Node, openai@5.1.0 o más reciente.
Cliente API para requests repetibles. curl sirve para una prueba; para iterar, cambia a Apidog o similar.

Exporta tu clave API:

export OPENAI_API_KEY="sk-proj-..."

Endpoint y autenticación

Usa los mismos endpoints que el resto de la familia GPT-5:

POST https://api.openai.com/v1/responses
POST https://api.openai.com/v1/chat/completions

La API de Responses es la interfaz más avanzada, soportando reasoning, búsqueda web y uso de herramientas. Chat Completions sigue activa para integraciones legacy.

Autenticación: Bearer token. El cuerpo es JSON: ID de modelo, prompt o mensajes, y parámetros.

curl https://api.openai.com/v1/responses \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-5.5",
    "input": "Summarize the last 10 releases of the openai/codex repo in three bullets.",
    "reasoning": { "effort": "medium" }
  }'

Respuesta exitosa: JSON con array output y bloque usage (tokens input/output/reasoning). Errores: objeto con code y message. Consulta la tabla de errores más abajo.

Parámetros de solicitud

Cada campo afecta costo y comportamiento. Mapa completo para gpt-5.5:

Parámetro	Tipo	Valores	Notas
`model`	string	`gpt-5.5`, `gpt-5.5-pro`	Obligatorio. Pro cuesta 6x input y 6x output.
`input` / `messages`	string/array	Prompt o array chat	Obligatorio. `input` en Responses, `messages` en Chat Completions.
`reasoning.effort`	string	`none`, `low`, `medium`, `high`, `xhigh`	Por defecto: `low`. `xhigh` = reasoning profundo (más tokens).
`max_output_tokens`	integer	1 – 128000	Límite de salida, no incluye reasoning tokens.
`tools`	array	Function, web_search, file_search, computer_use, code_interpreter	Definición de herramientas; el modelo las encadena según contexto.
`tool_choice`	string/object	`auto`, `none`, o nombre de herramienta	Forzar uso de una herramienta específica.
`response_format`	object	`{ "type": "json_schema", "schema": {...} }`	Salida estructurada; modo estricto por defecto.
`stream`	boolean	true / false	Eventos desde servidor. Reasoning tokens llegan como eventos separados.
`user`	string	libre	Para detección de abuso; usa un ID hasheado.
`metadata`	object	hasta 16 pares clave-valor	Aparece en panel y logs de OpenAI.
`seed`	integer	cualquier int32	Determinismo suave; misma semilla resulta cercano, no idéntico.
`temperature`	number	0 – 2	Ignorado si `reasoning.effort >= medium`.

Los parámetros con mayor impacto en costo: reasoning.effort, max_output_tokens, tools. Usar reasoning.effort: "high" o "xhigh" puede multiplicar por 3-8 el consumo de tokens respecto a low.

Ejemplo de Python

La estructura es igual a la API de Responses 5.4. Solo cambian model y el rango de reasoning.effort.

from openai import OpenAI

client = OpenAI()

response = client.responses.create(
    model="gpt-5.5",
    input=[
        {
            "role": "system",
            "content": "You are a senior Go engineer. Answer in terse, runnable code.",
        },
        {
            "role": "user",
            "content": (
                "Write a worker pool with bounded concurrency and a context "
                "cancellation path. No third-party deps."
            ),
        },
    ],
    reasoning={"effort": "medium"},
    max_output_tokens=4000,
)

print(response.output_text)
print(response.usage.model_dump())

Puntos clave:

response.output_text aplana el array output. Para eventos estructurados (herramientas, reasoning, citaciones), accede a response.output.
usage retorna input_tokens, output_tokens y reasoning_tokens. Factura en base a los tres.

Ejemplo de Node

import OpenAI from "openai";

const client = new OpenAI();

const response = await client.responses.create({
  model: "gpt-5.5",
  input: [
    { role: "system", content: "You are a careful reviewer." },
    {
      role: "user",
      content:
        "Review this migration and flag any operation that would lock a write-heavy table for more than 200 ms.",
    },
  ],
  reasoning: { effort: "high" },
  tools: [{ type: "file_search" }],
  max_output_tokens: 6000,
});

console.log(response.output_text);
console.log(response.usage);

Configura reasoning.effort en high para tareas de revisión crítica, donde el costo de errores supera el de unos tokens extra.

Modo de pensamiento

No es un modelo distinto: usa gpt-5.5 con reasoning.effort en high o xhigh y ajusta max_output_tokens. En la UI de ChatGPT es un switch; en API, tú eliges en cada request.

Reglas prácticas:

medium como default: suficiente para agentes, debug multiarchivo y generación documental. Costos similares a GPT-5.4.
high y xhigh: solo para investigación, revisión o cadenas largas de herramientas. Multiplica por 3-8 los tokens y puede superar 30s de latencia.

Si usas computer_use o cadenas web_search largas, merece la pena subir el effort; el modelo reduce alucinaciones según OpenAI (release).

Salida estructurada

Por defecto, la salida es JSON estricto. Si pasas un schema, el SDK rechazará JSON mal formado.

response = client.responses.create(
    model="gpt-5.5",
    input="Extract the title, speaker, and start time from this transcript chunk.",
    response_format={
        "type": "json_schema",
        "json_schema": {
            "name": "session_extract",
            "strict": True,
            "schema": {
                "type": "object",
                "required": ["title", "speaker", "start_time"],
                "properties": {
                    "title": {"type": "string"},
                    "speaker": {"type": "string"},
                    "start_time": {"type": "string", "format": "date-time"},
                },
            },
        },
    },
)

Siempre define schema si tu output alimenta código aguas abajo. No cuesta tokens y evita bucles de reintentos por JSON inválido.

Uso de herramientas y agentes

La API de Responses expone 5 herramientas nativas:

web_search: búsqueda en tiempo real, ahora con citaciones.
file_search: búsqueda vectorial en archivos subidos.
code_interpreter: Python sandboxed.
computer_use: mouse, teclado, navegador vía Operator.
function: callbacks personalizados.

La mejora clave en GPT-5.5 vs 5.4 es que encadena herramientas sin supervisión. En test reproducibles, completó 11% más cadenas multi-herramienta que 5.4 con el mismo prompt.

Manejo de errores y reintentos

Prepárate para estos códigos de error (manejalos explícitamente):

Código	Significado	¿Reintentar?
`429 rate_limit_exceeded`	Exceso de límite por minuto/día	Sí, con backoff exponencial y jitter
`400 context_length_exceeded`	Input + output + reasoning > 1M tokens	No, acorta la entrada
`500 server_error`	Error transitorio en OpenAI	Sí, hasta 3 intentos
`403 policy_violation`	Rechazado por política de seguridad	No, reescribe el prompt

Los reasoning tokens cuentan para la ventana de contexto. Un request con reasoning.effort: "xhigh" sobre 900K tokens de input puede desbordar contexto aunque el mensaje sea corto.

Flujo de trabajo de prueba con Apidog

Las llamadas a GPT-5.5 son costosas: no desperdicies tokens en errores de schema. Sigue este flujo:

Crea la solicitud en Apidog, guárdala en una colección y etiqueta el entorno (dev, staging, prod).
Usa el mock server para reproducir la última respuesta real mientras iteras en tu código downstream.
Cambia a la clave activa solo cuando el esquema esté estable.

Apidog integra Claude Code y Cursor, permitiendo acceso desde agentes en el editor. Consulta la guía de Apidog en VS Code y la comparativa Apidog vs. Postman para setup completo.

Llamar a GPT-5.5 antes de la API general

Hasta que la API de Responses esté abierta, el camino práctico es usar Codex login. Sigue la guía gratuita de Codex para instalar la CLI, autenticarte con ChatGPT y seleccionar modelo.

Preguntas frecuentes

¿Existe un gpt-5.5-mini?

No al lanzamiento. OpenAI mantiene gpt-5.4-mini como opción económica.

¿Cuál es la ventana de contexto?

1M tokens en API, 400K en Codex CLI. Incluye reasoning tokens.

¿Debo reescribir mi código de GPT-5.4?

No. Solo cambia el ID de modelo, ajusta max_output_tokens para reasoning avanzado y setea reasoning.effort según tu caso.

¿Cómo reduzco el costo?

Tres palancas: Batch (50% off), Flex (50% off, con colas), y esquemas estrictos para evitar reintentos por errores de formato. Detalle matemático en el desglose de precios de GPT-5.5.

¿Dónde se anuncia la disponibilidad general de la API?

En la comunidad de OpenAI y la página oficial de precios.

DEV Community