Roobia

Posted on Apr 22 • Originally published at apidog.com

Novedades de ChatGPT Imágenes 2.0

OpenAI lanzó ChatGPT Images 2.0 el 21 de abril de 2026, impulsado por un nuevo modelo llamado gpt-image-2. Lee tu prompt, planifica el diseño, renderiza texto multilingüe nítido y puede producir hasta diez imágenes de una sola vez; todo hasta 2,000 píxeles de ancho y en relaciones de aspecto que el antiguo modelo de imagen nunca admitió.

Prueba Apidog hoy

Para los desarrolladores, la noticia principal no es la actualización de la interfaz de usuario de ChatGPT. Es que gpt-image-2 se expone a través de la API de OpenAI con un modo de "pensamiento" consciente del razonamiento, precios por token y el mismo patrón de punto final que ya se conecta en producción.

Esta guía cubre lo que cambió, cuánto cuesta la API, cómo llamarla de extremo a extremo y cómo probarla con Apidog sin escribir scripts desechables. Si evaluaste APIs de imágenes anteriores y las abandonaste porque el texto salía distorsionado o la resolución estaba limitada a 1024, empieza aquí.

¿Qué es gpt-image-2?

gpt-image-2 es el ID del modelo para el generador de imágenes de segunda generación de OpenAI, lanzado junto con el producto ChatGPT Images 2.0 el 21 de abril de 2026. Reemplaza a la familia anterior gpt-image-1 en el lado de la API y potencia la creación de imágenes dentro de ChatGPT en la web y dispositivos móviles.

Tres razones para probarlo si dejaste la generación de imágenes de OpenAI en 2024 o 2025:

Texto legible en diferentes escrituras: Ahora puedes generar UI labels, logotipos y textos en japonés, coreano, chino, hindi o bengalí con claridad suficiente para uso directo.
Razonamiento antes de los píxeles: El modo thinking dedica recursos extra a planificar composición, conteo y restricciones antes de renderizar. Reduce los prompts de reintento por conteos incorrectos o etiquetas mal ubicadas.
Mayor resolución y formatos: Hasta 2,000 px en el borde largo y relaciones extremas como 3:1 o 1:3. Ideal para banners, portadas y videos verticales sin escalar.

OpenAI posiciona este modelo como una herramienta de flujo visual para infografías, plantillas, manga y más.

Qué cambió vs. gpt-image-1

Si ya usabas el endpoint de OpenAI para imágenes, aquí tienes un resumen técnico de las diferencias clave:

Capacidad	gpt-image-1	gpt-image-2
Resolución máxima	1024 px	2,000 px en el borde largo
Relaciones de aspecto	1:1, 3:2, 2:3	1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
Imágenes por solicitud	1	Hasta 10, con consistencia de estilo
Renderizado de texto	Solo inglés, a menudo ilegible	Multilingüe, incluyendo escrituras CJK e índicas
Modo de razonamiento	No	Sí (bandera `thinking`)
Búsqueda web durante la generación	No	Sí, en modo de pensamiento

El modo por lotes (n > 1) permite hasta 10 variaciones coherentes por prompt, útil para iteración de diseño y sets de imágenes consistentes.

Disponibilidad y precios

El despliegue es gradual:

Usuarios ChatGPT Free: acceso al modelo estándar gpt-image-2.
Suscriptores Plus, Pro y Business: modo de pensamiento, razonamiento extendido y búsqueda web.
API developers: ambos modos vía el ID gpt-image-2.

Precios (ver página de precios de la API de OpenAI):

$5 por millón de tokens de texto de entrada
$10 por millón de tokens de texto de salida
$8 por millón de tokens de imagen de entrada
$30 por millón de tokens de imagen de salida

Una imagen estándar 1024 × 1024 cuesta alrededor de $0.21. El modo de pensamiento consume más tokens según la complejidad del prompt.

Llamando a la API

Sigue el endpoint images/generations. Un ejemplo mínimo:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'

Para habilitar el razonamiento, añade thinking:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'

La respuesta retorna base64 o URLs según response_format. El esquema es compatible con SDKs existentes; solo cambia el ID de modelo.

Ejemplo en Python (SDK oficial):

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # decode() en la práctica

Notas prácticas:

El modo de pensamiento acepta low, medium y high. Usa medium para gráficos y diagramas.
La salida por lotes (n > 1) garantiza estilo consistente dentro de la llamada. Si necesitas un set coherente, pide todas en la misma solicitud.

Probando gpt-image-2 con Apidog

Iterar prompts desde terminal es lento y poco visual. Usa un cliente de API dedicado para gestionar respuestas de imagen, comparar prompts y versionar variantes.

Apidog soporta el endpoint de OpenAI nativamente. Importa la especificación OpenAPI, define OPENAI_API_KEY como variable, pega tu prompt y haz clic en "Enviar". Las imágenes se renderizan en línea (base64 o URL) y puedes bifurcar solicitudes para experimentar con parámetros y comparar resultados rápidamente.

Flujo de trabajo recomendado:

Crea una solicitud gpt-image-2 en una colección de Apidog.
Guarda dos entornos: uno con thinking: "off", otro con thinking: "medium".
Ejecuta el mismo prompt en ambos, compara resultados y guarda el mejor prompt.
Bifurca la colección para cada tipo de activo (banner, slide, infografía) con sus propios parámetros ajustados.

Puedes encadenar llamadas: genera la imagen y luego sube la URL a tu CDN dentro del mismo flujo en Apidog, algo que curl no permite de forma sencilla.

¿Vienes de Postman o curl? Prueba Apidog, apunta tu API key y ten el entorno listo en menos de cinco minutos.

Dónde gpt-image-2 todavía tiene dificultades

A pesar de las mejoras, hay limitaciones prácticas:

Caras fotorrealistas: Especialmente de figuras públicas, suelen fallar o ser bloqueadas por las políticas de OpenAI.
Activos de marca exactos: Logos y personajes registrados raramente son precisos; úsalo para ambientaciones, no para assets finales.
Bloques de texto largos: No soporta párrafos extensos; está pensado para subtítulos y etiquetas, no para renderizar artículos completos.
Consistencia entre sesiones: Coherencia asegurada solo dentro de una llamada por lotes. Distintas llamadas pueden variar aunque el prompt sea igual.

Consulta la reseña de The Decoder para un desglose más detallado.

Cómo se compara con el resto del campo de generación de imágenes de 2026

OpenAI compite con Google (Nano Banana 2) y modelos multimodales open source, muchos ya mejorando el renderizado de texto.

Si comparas APIs, explora estos recursos:

Anuncio de Qwen 3.5 Omni: impulso multimodal de Alibaba.
Guía de la API de GLM 5V Turbo: API visión-lenguaje de Zhipu, más barata pero menor fidelidad de texto.
Cómo usar Qwen 3.5 Omni: guía práctica de uso.
Análisis de Cursor Composer 2: cómo el razonamiento impacta la UX de herramientas IA.
Guía de Microsoft VibeVoice: para lanzamientos recientes.

Elige gpt-image-2 cuando priorices precisión textual, razonamiento visual y la integración con la suite de OpenAI. Opta por modelos open source si necesitas autoalojamiento, menor precio o licencias comerciales permisivas.

Preguntas frecuentes

¿Está gpt-image-2 disponible en el nivel gratuito de ChatGPT?

Sí, en modo estándar. El modo de pensamiento, razonamiento extendido y búsqueda web son exclusivos de Plus, Pro y Business. El acceso vía API es independiente y depende de tu cuenta de desarrollador, con los mismos límites de tasa.

¿Es compatible gpt-image-2 con edición e inpainting?

Por ahora solo conversión texto-imagen con modos batch y thinking. Los endpoints de edición seguirán el mismo patrón bajo el nuevo ID. Consulta la página del modelo gpt-image-2 antes de implementar inpainting.

¿Qué resolución y relaciones de aspecto soporta?

Hasta 2,000 px en el borde largo. Relaciones: 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3. Cubres banners, slides, publicaciones cuadradas y recortes anchos sin escalar.

¿Cómo pruebo gpt-image-2 rápidamente?

Usa un cliente de API como Apidog, que renderiza imágenes en línea, guarda prompts y permite comparar modos thinking fácilmente. Equipos que migran desde terminal o Postman suelen combinarlo con nuestra guía de pruebas de API sin Postman.

¿Cuánto cuesta una imagen por API?

Aproximadamente $0.21 para 1024×1024 en calidad alta y modo estándar. El modo de pensamiento añade tokens de razonamiento, así que calcula un costo variable para prompts complejos. Verifica los precios en la página oficial de OpenAI.

¿Puede el modelo buscar en la web durante la generación?

Sí, en modo de pensamiento. El modelo puede obtener referencias y datos para mejorar precisión en diagramas o mapas. El modo estándar no hace búsquedas web.