A OpenAI lançou o ChatGPT Images 2.0 em 21 de abril de 2026, com o novo modelo gpt-image-2. Esse modelo lê o prompt, planeja o layout, gera textos multilingues legíveis e pode produzir até dez imagens por requisição, suportando resoluções de até 2.000 pixels de largura e proporções não disponíveis em modelos anteriores.
Para desenvolvedores, o ponto principal não é a interface do ChatGPT, mas sim que o gpt-image-2 está disponível via API da OpenAI, com modo de raciocínio, precificação por token e o mesmo padrão de endpoint utilizado em produção.
Este guia mostra o que mudou, quanto custa a API, como utilizá-la do início ao fim e como testar tudo no Apidog sem scripts descartáveis. Se você já testou APIs anteriores e desistiu por limitações de texto ou resolução, siga os passos abaixo para começar a usar o novo modelo.
O que é gpt-image-2?
gpt-image-2 é o identificador do modelo do gerador de imagens de segunda geração da OpenAI, lançado junto ao ChatGPT Images 2.0. Ele substitui a família gpt-image-1 na API e é utilizado na criação de imagens no ChatGPT em todas as plataformas.
Três melhorias práticas:
- Texto legível em múltiplos idiomas: Agora é possível gerar rótulos pequenos, logotipos, legendas e scripts não latinos (japonês, coreano, chinês, hindi, bengali) de forma nítida, eliminando a necessidade de retoques manuais.
-
Raciocínio antes da renderização: O modo
thinkingexecuta planejamento de layout, contagem de itens e verificação de restrições antes de gerar a imagem, reduzindo erros de contagem ou de legendas. - Resolução e proporção ampliadas: Suporte de até 2.000 px na maior dimensão e proporções como 3:1 ou 1:3, permitindo criar banners, slides e vídeos verticais sem upscaling.
A OpenAI posiciona o modelo como ferramenta de fluxo de trabalho visual, capaz de gerar páginas de revistas, infográficos, slides e até painéis de mangá.
O que mudou em relação ao gpt-image-1
Se já utilizou o endpoint anterior, veja as diferenças práticas no código:
| Capacidade | gpt-image-1 | gpt-image-2 |
|---|---|---|
| Resolução máxima | 1024 px | 2.000 px na borda mais longa |
| Proporções | 1:1, 3:2, 2:3 | 1:1, 3:2, 2:3, 16:9, 9:16, 3:1, 1:3 |
| Imagens por requisição | 1 | Até 10, com consistência de estilo |
| Renderização de texto | Só inglês, ilegível | Multilingue, incluindo CJK e índicos |
| Modo de raciocínio | Não | Sim (thinking) |
| Pesquisa web na geração | Não | Sim, no modo thinking |
O modo em lote é uma das mudanças mais úteis: um prompt pode retornar até dez variações com composição e paleta consistentes, acelerando iteração de design e geração de múltiplos assets.
Disponibilidade e preços
O lançamento é feito em etapas:
-
ChatGPT Free: acesso ao modelo padrão
gpt-image-2. - ChatGPT Plus, Pro e Business: acesso ao modo de pensamento, raciocínio estendido e pesquisa web.
-
Desenvolvedores de API: ambos os modos via ID
gpt-image-2; disponibilidade liberada após o lançamento.
A precificação segue a página oficial: $5/milhão tokens entrada texto, $10/milhão tokens saída texto, $8/milhão tokens entrada imagem, $30/milhão tokens saída imagem. Uma imagem de alta qualidade 1024×1024 custa cerca de $0,21; 60% a mais que a geração anterior, devido à tela maior e raciocínio.
O modo de pensamento consome mais tokens de raciocínio; diagramas e prompts complexos terão custo variável. Considere isso ao precificar seus fluxos.
Chamando a API
O endpoint segue o padrão images/generations. Exemplo mínimo com curl:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A clean product hero for an API testing platform, dark background, soft cyan lighting, a laptop showing a JSON response, sharp small-text UI labels readable",
"size": "1536x1024",
"n": 4,
"quality": "high"
}'
Para ativar o modo de raciocínio, adicione o parâmetro thinking:
curl https://api.openai.com/v1/images/generations \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-image-2",
"prompt": "A four-panel infographic explaining OAuth 2.1 authorization code flow with PKCE. Label every arrow in English and Japanese.",
"size": "2000x1000",
"n": 1,
"quality": "high",
"thinking": "medium"
}'
A resposta pode retornar base64 ou URLs (dependendo de response_format); o esquema não mudou desde o gpt-image-1, então wrappers de SDK existentes continuam compatíveis.
Exemplo em Python usando o SDK oficial:
from openai import OpenAI
client = OpenAI()
result = client.images.generate(
model="gpt-image-2",
prompt="Minimalist dashboard UI mockup for a REST client, sentence-case labels, a latency chart in the corner.",
size="1536x1024",
n=4,
quality="high",
)
for i, image in enumerate(result.data):
with open(f"out_{i}.png", "wb") as f:
f.write(image.b64_json.encode()) # decode() na prática
Notas práticas:
- O modo thinking possui três níveis (
low,medium,high), trocando latência por precisão de layout. Para gráficos e tabelas,mediumé geralmente o melhor ponto de partida. - Saídas em lote (
n > 1) mantêm coerência dentro da mesma chamada, mas não entre chamadas diferentes. Para conjuntos consistentes, gere todos de uma vez só.
Testando gpt-image-2 com Apidog
Iterar prompts pela linha de comando é ineficiente. Use um cliente de API dedicado para visualizar resultados, trocar e versionar prompts. O Apidog é uma alternativa pensada para desenvolvedores que precisam manipular respostas de imagem.
Com Apidog, siga estes passos práticos:
- Importe a especificação OpenAPI da OpenAI.
- Defina
OPENAI_API_KEYcomo variável de ambiente. - Cole seu prompt no corpo da requisição.
- Clique em Enviar para visualizar imagens inline (base64 ou URL).
- Bifurque a requisição para comparar proporções, qualidade e níveis de raciocínio.
Fluxo sugerido para comparar modos:
- Crie uma requisição
gpt-image-2em uma coleção Apidog. - Salve dois ambientes: um com
thinking: "off", outro comthinking: "medium". - Execute o mesmo prompt em ambos e compare as imagens.
- Bifurque a coleção para diferentes tipos de asset (banner, slide, infográfico), ajustando parâmetros conforme necessário.
Você pode ainda encadear chamadas: gerar a imagem e postá-la em um endpoint de upload CDN no mesmo fluxo de teste. Essa automação é difícil de fazer apenas com scripts curl.
Se você trabalha com API genérica de linha de comando, experimente uma plataforma dedicada. Baixe o Apidog e aponte para sua chave OpenAI — configuração em menos de cinco minutos.
Onde o gpt-image-2 ainda tem dificuldades
Apesar dos avanços, existem limitações:
- Rostos fotorrealistas em close: ainda aparecem imperfeições, principalmente para pessoas públicas. Muitos prompts são rejeitados pelas salvaguardas da OpenAI.
- Ativos de marca precisos: geometria exata e logotipos registrados não são confiáveis. Use o modelo para conceito, não entrega final.
- Blocos longos de texto: parágrafos inteiros tendem a se degradar após algumas centenas de caracteres. O modelo funciona melhor para legendas, títulos e rótulos.
- Consistência entre sessões: Não é garantida. O modo em lote mantém estilo na mesma chamada, mas chamadas em dias diferentes podem variar.
Para análises externas, veja a review do The Decoder.
Como se compara ao restante do campo de geração de imagem de 2026
Em 2026, o cenário conta com vários modelos de raciocínio + imagem. O Nano Banana 2 do Google, modelos multimodais open-source e outros estão reduzindo a diferença especialmente em renderização de texto.
Confira guias práticos e comparativos:
- Anúncio do Qwen 3.5 Omni: avanço multimodal da Alibaba.
- Guia da API GLM 5V Turbo: opções de menor custo, mas menor fidelidade de texto.
- Como usar o Qwen 3.5 Omni: passo a passo prático.
- Análise do Cursor Composer 2: como IA baseada em raciocínio altera a UX de ferramentas.
- Guia do Microsoft VibeVoice: lançamento adjacente à OpenAI.
Use gpt-image-2 quando precisão de texto, raciocínio de composição e integração com a stack OpenAI forem prioridade. Escolha modelos open-source para auto-hospedagem, menor custo ou licenças permissivas.
Perguntas Frequentes
O gpt-image-2 está disponível na camada gratuita do ChatGPT?
Sim, o modo padrão está disponível para todos. Modo de pensamento, raciocínio estendido e pesquisa web são restritos aos planos pagos. O acesso via API depende de sua conta de desenvolvedor OpenAI, com limites de taxa padrão.
O gpt-image-2 suporta edição de imagem e inpainting?
O foco inicial é texto-para-imagem, com modos de lote e pensamento. Endpoints de edição (imagem + máscara) devem seguir o modelo anterior, mas com novo ID. Consulte a documentação oficial antes de desenvolver soluções de inpainting.
Quais resoluções e proporções são suportadas?
Até 2.000 pixels na borda longa, com proporções 1:1, 3:2, 2:3, 16:9, 9:16, 3:1 e 1:3. Isso cobre banners, vídeos verticais, posts quadrados e cortes largos sem upscaling.
Como testar requisições gpt-image-2 rapidamente?
Utilize um cliente dedicado. Apidog renderiza imagens inline, armazena prompts como variáveis e permite comparar modos de pensamento lado a lado. Veja também nosso guia para testar API sem Postman.
Quanto custa uma imagem pela API?
Cerca de $0,21 para 1024×1024 de alta qualidade. O modo de pensamento adiciona tokens extras, então o custo varia com prompts mais detalhados. Consulte a página de preços oficial para os valores atualizados.
O modelo pode pesquisar na web durante a geração?
Sim, no modo thinking. O modelo pode buscar referências e fatos durante a geração, melhorando precisão de diagramas e mapas. O modo padrão não faz buscas.



Top comments (0)