Novidades do ChatGPT Imagens 2.0: O Que Há de Novo?

A OpenAI lançou o ChatGPT Images 2.0 em 21 de abril de 2026, com o novo modelo gpt-image-2. Esse modelo lê o prompt, planeja o layout, gera textos multilingues legíveis e pode produzir até dez imagens por requisição, suportando resoluções de até 2.000 pixels de largura e proporções não disponíveis em modelos anteriores.

Experimente o Apidog hoje

Para desenvolvedores, o ponto principal não é a interface do ChatGPT, mas sim que o gpt-image-2 está disponível via API da OpenAI, com modo de raciocínio, precificação por token e o mesmo padrão de endpoint utilizado em produção.

Este guia mostra o que mudou, quanto custa a API, como utilizá-la do início ao fim e como testar tudo no Apidog sem scripts descartáveis. Se você já testou APIs anteriores e desistiu por limitações de texto ou resolução, siga os passos abaixo para começar a usar o novo modelo.

O que é gpt-image-2?

gpt-image-2 é o identificador do modelo do gerador de imagens de segunda geração da OpenAI, lançado junto ao ChatGPT Images 2.0. Ele substitui a família gpt-image-1 na API e é utilizado na criação de imagens no ChatGPT em todas as plataformas.

Três melhorias práticas:

Texto legível em múltiplos idiomas: Agora é possível gerar rótulos pequenos, logotipos, legendas e scripts não latinos (japonês, coreano, chinês, hindi, bengali) de forma nítida, eliminando a necessidade de retoques manuais.
Raciocínio antes da renderização: O modo thinking executa planejamento de layout, contagem de itens e verificação de restrições antes de gerar a imagem, reduzindo erros de contagem ou de legendas.
Resolução e proporção ampliadas: Suporte de até 2.000 px na maior dimensão e proporções como 3:1 ou 1:3, permitindo criar banners, slides e vídeos verticais sem upscaling.

A OpenAI posiciona o modelo como ferramenta de fluxo de trabalho visual, capaz de gerar páginas de revistas, infográficos, slides e até painéis de mangá.

O que mudou em relação ao gpt-image-1

Se já utilizou o endpoint anterior, veja as diferenças práticas no código:

Capacidade	gpt-image-1	gpt-image-2
Resolução máxima	1024 px	2.000 px na borda mais longa
Proporções	1:1, 3:2, 2:3	1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3
Imagens por requisição	1	Até 10, com consistência de estilo
Renderização de texto	Só inglês, ilegível	Multilingue, incluindo CJK e índicos
Modo de raciocínio	Não	Sim (`thinking`)
Pesquisa web na geração	Não	Sim, no modo thinking

O modo em lote é uma das mudanças mais úteis: um prompt pode retornar até dez variações com composição e paleta consistentes, acelerando iteração de design e geração de múltiplos assets.

Disponibilidade e preços

O lançamento é feito em etapas:

ChatGPT Free: acesso ao modelo padrão gpt-image-2.
ChatGPT Plus, Pro e Business: acesso ao modo de pensamento, raciocínio estendido e pesquisa web.
Desenvolvedores de API: ambos os modos via ID gpt-image-2; disponibilidade liberada após o lançamento.

A precificação segue a página oficial: $5/milhão tokens entrada texto, $10/milhão tokens saída texto, $8/milhão tokens entrada imagem, $30/milhão tokens saída imagem. Uma imagem de alta qualidade 1024×1024 custa cerca de $0,21; 60% a mais que a geração anterior, devido à tela maior e raciocínio.

O modo de pensamento consome mais tokens de raciocínio; diagramas e prompts complexos terão custo variável. Considere isso ao precificar seus fluxos.

Chamando a API

O endpoint segue o padrão images/generations. Exemplo mínimo com curl:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
    "size": "1536x1024",
    "n": 4,
    "quality": "high"
  }'

Para ativar o modo de raciocínio, adicione o parâmetro thinking:

curl https://api.openai.com/v1/images/generations \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-image-2",
    "prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
    "size": "2000x1000",
    "n": 1,
    "quality": "high",
    "thinking": "medium"
  }'

A resposta pode retornar base64 ou URLs (dependendo de response_format); o esquema não mudou desde o gpt-image-1, então wrappers de SDK existentes continuam compatíveis.

Exemplo em Python usando o SDK oficial:

from openai import OpenAI

client = OpenAI()

result = client.images.generate(
    model="gpt-image-2",
    prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
    size="1536x1024",
    n=4,
    quality="high",
)

for i, image in enumerate(result.data):
    with open(f"out_{i}.png", "wb") as f:
        f.write(image.b64_json.encode())  # decode() na prática

Notas práticas:

O modo thinking possui três níveis (low, medium, high), trocando latência por precisão de layout. Para gráficos e tabelas, medium é geralmente o melhor ponto de partida.
Saídas em lote (n > 1) mantêm coerência dentro da mesma chamada, mas não entre chamadas diferentes. Para conjuntos consistentes, gere todos de uma vez só.

Testando gpt-image-2 com Apidog

Iterar prompts pela linha de comando é ineficiente. Use um cliente de API dedicado para visualizar resultados, trocar e versionar prompts. O Apidog é uma alternativa pensada para desenvolvedores que precisam manipular respostas de imagem.

Com Apidog, siga estes passos práticos:

Importe a especificação OpenAPI da OpenAI.
Defina OPENAI_API_KEY como variável de ambiente.
Cole seu prompt no corpo da requisição.
Clique em Enviar para visualizar imagens inline (base64 ou URL).
Bifurque a requisição para comparar proporções, qualidade e níveis de raciocínio.

Fluxo sugerido para comparar modos:

Crie uma requisição gpt-image-2 em uma coleção Apidog.
Salve dois ambientes: um com thinking: "off", outro com thinking: "medium".
Execute o mesmo prompt em ambos e compare as imagens.
Bifurque a coleção para diferentes tipos de asset (banner, slide, infográfico), ajustando parâmetros conforme necessário.

Você pode ainda encadear chamadas: gerar a imagem e postá-la em um endpoint de upload CDN no mesmo fluxo de teste. Essa automação é difícil de fazer apenas com scripts curl.

Se você trabalha com API genérica de linha de comando, experimente uma plataforma dedicada. Baixe o Apidog e aponte para sua chave OpenAI — configuração em menos de cinco minutos.

Onde o gpt-image-2 ainda tem dificuldades

Apesar dos avanços, existem limitações:

Rostos fotorrealistas em close: ainda aparecem imperfeições, principalmente para pessoas públicas. Muitos prompts são rejeitados pelas salvaguardas da OpenAI.
Ativos de marca precisos: geometria exata e logotipos registrados não são confiáveis. Use o modelo para conceito, não entrega final.
Blocos longos de texto: parágrafos inteiros tendem a se degradar após algumas centenas de caracteres. O modelo funciona melhor para legendas, títulos e rótulos.
Consistência entre sessões: Não é garantida. O modo em lote mantém estilo na mesma chamada, mas chamadas em dias diferentes podem variar.

Para análises externas, veja a review do The Decoder.

Como se compara ao restante do campo de geração de imagem de 2026

Em 2026, o cenário conta com vários modelos de raciocínio + imagem. O Nano Banana 2 do Google, modelos multimodais open-source e outros estão reduzindo a diferença especialmente em renderização de texto.

Confira guias práticos e comparativos:

Anúncio do Qwen 3.5 Omni: avanço multimodal da Alibaba.
Guia da API GLM 5V Turbo: opções de menor custo, mas menor fidelidade de texto.
Como usar o Qwen 3.5 Omni: passo a passo prático.
Análise do Cursor Composer 2: como IA baseada em raciocínio altera a UX de ferramentas.
Guia do Microsoft VibeVoice: lançamento adjacente à OpenAI.

Use gpt-image-2 quando precisão de texto, raciocínio de composição e integração com a stack OpenAI forem prioridade. Escolha modelos open-source para auto-hospedagem, menor custo ou licenças permissivas.

Perguntas Frequentes

O gpt-image-2 está disponível na camada gratuita do ChatGPT?

Sim, o modo padrão está disponível para todos. Modo de pensamento, raciocínio estendido e pesquisa web são restritos aos planos pagos. O acesso via API depende de sua conta de desenvolvedor OpenAI, com limites de taxa padrão.

O gpt-image-2 suporta edição de imagem e inpainting?

O foco inicial é texto-para-imagem, com modos de lote e pensamento. Endpoints de edição (imagem + máscara) devem seguir o modelo anterior, mas com novo ID. Consulte a documentação oficial antes de desenvolver soluções de inpainting.

Quais resoluções e proporções são suportadas?

Até 2.000 pixels na borda longa, com proporções 1:1, 3:2, 2:3, 16:9, 9:16, 3:1 e 1:3. Isso cobre banners, vídeos verticais, posts quadrados e cortes largos sem upscaling.

Como testar requisições gpt-image-2 rapidamente?

Utilize um cliente dedicado. Apidog renderiza imagens inline, armazena prompts como variáveis e permite comparar modos de pensamento lado a lado. Veja também nosso guia para testar API sem Postman.

Quanto custa uma imagem pela API?

Cerca de $0,21 para 1024×1024 de alta qualidade. O modo de pensamento adiciona tokens extras, então o custo varia com prompts mais detalhados. Consulte a página de preços oficial para os valores atualizados.

O modelo pode pesquisar na web durante a geração?

Sim, no modo thinking. O modelo pode buscar referências e fatos durante a geração, melhorando precisão de diagramas e mapas. O modo padrão não faz buscas.