Lucas

Posted on Jun 3 • Originally published at apidog.com

Qwen 3.7 Plus vs Max: Qual modelo Qwen 3.7 usar

A Alibaba lançou dois carros-chefe da linha Qwen 3.7 em duas semanas: Qwen3.7-Max, focado em raciocínio somente com texto, e Qwen3.7-Plus, a versão multimodal com visão e custo bem menor. Como ambos têm contexto de 1M de tokens e teto de execução autônoma de 35 horas, a escolha precisa considerar benchmark, preço, latência e tipo real de entrada.

Experimente o Apidog hoje

Este guia compara Qwen 3.7 Plus e Qwen 3.7 Max do ponto de vista de implementação: quando usar cada um, como avaliar custo, quais benchmarks importam e como testar os dois via API. Se quiser contexto antes, veja a visão geral do Qwen 3.7 Plus e o guia o que é Qwen 3.7. Na prática, qualquer escolha passa por chamadas de API, validação de payloads e comparação de respostas; é aí que o Apidog ajuda no fluxo de teste.

A resposta curta

Use Qwen 3.7 Plus por padrão.

Ele:

empata com o Max em uso de ferramentas;
supera o Max em tarefas de terminal;
aceita texto, imagem e vídeo;
custa cerca de seis vezes menos na entrada;
é suficiente para a maioria dos agentes, pipelines de automação e apps com LLM.

Use Qwen 3.7 Max apenas quando sua aplicação for estritamente textual e muito sensível à latência. Ele mantém uma pequena vantagem em rankings de texto puro e tende a responder mais rápido em caminhos frios somente de texto.

A diferença principal

A diferença prática é simples:

Modelo	Melhor uso
Qwen 3.7 Max	Raciocínio, código e agentes baseados apenas em texto
Qwen 3.7 Plus	Texto + imagem + vídeo + GUI grounding com custo menor

O Max é o carro-chefe textual. Ele raciocina, codifica e executa cadeias longas de agentes a partir de entrada de texto.

O Plus adiciona visão. Ele aceita imagens e vídeos e consegue fundamentar interfaces gráficas a ponto de retornar coordenadas de clique a partir de uma captura de tela.

Na implementação, isso muda o tipo de produto que você pode construir:

agente que lê screenshots;
automação de UI;
análise de documentos escaneados;
extração de dados de recibos e faturas;
QA visual;
workflows com vídeo ou imagem.

Você troca uma pequena vantagem de texto e latência por multimodalidade e custo muito menor.

Benchmarks

Os números mostram um padrão consistente: Plus fica ligeiramente atrás em texto puro, empata em ferramentas e lidera quando visão entra no fluxo.

Benchmark	Qwen 3.7 Plus	Qwen 3.7 Max
LM Arena (texto)	#15	#13
LM Arena (codificação)	#12	#10
Vision Arena	#16	Não aplicável
SWE-Bench Pro	~60%	60.6%
Terminal-Bench (2.0 Terminus)	70.3	69.7
ScreenSpot Pro (GUI grounding)	79.0	Nenhum
MCP-Atlas (uso de ferramentas)	76.4	76.4

Como interpretar esses números

1. SWE-Bench Pro é praticamente empate

Plus atinge cerca de 60%, contra 60,6% do Max. Em tarefas reais de software, a capacidade multimodal do Plus não parece reduzir de forma relevante a capacidade de codificação. Para comparar com outros modelos de ponta, veja a comparação Qwen 3.7 vs GPT-5.5 vs Opus 4.7.

2. Plus vence levemente no Terminal-Bench

No Terminal-Bench, Plus marca 70.3 contra 69.7 do Max. Para agentes que executam comandos, usam shell e iteram sobre erros de terminal, o modelo mais barato também é ligeiramente mais forte.

3. GUI grounding é o divisor real

ScreenSpot Pro 79.0 coloca o Plus em um nível forte para tarefas de interface. O Max não executa esse tipo de benchmark porque não processa imagens.

Se seu agente precisa “olhar” para uma tela, interpretar uma UI ou clicar em coordenadas, somente o Plus se qualifica.

Como sempre, use benchmarks como direção, não como verdade absoluta. O site do SWE-bench explica o que cada suíte mede.

Preços

Aqui está a diferença mais importante para produção.

	Qwen 3.7 Plus	Qwen 3.7 Max
Entrada / 1M tokens	US$ 0.40	US$ 2.50
Saída / 1M tokens	US$ 1.60	US$ 7.50
Entrada em cache / 1M	US$ 0.08	US$ 0.25

O Plus é:

cerca de 6x mais barato na entrada;
quase 5x mais barato na saída;
mais barato também em entrada em cache.

Para agentes de alto volume, pipelines de classificação, automações longas ou produtos com muitos usuários, essa diferença decide o orçamento.

Atenção ao custo de imagem e vídeo

No Plus, imagens e vídeos são tokenizados e consomem o mesmo orçamento de contexto de 1M tokens. Portanto, uma carga pesada em screenshots ou vídeo pode custar mais por chamada do que uma chamada apenas textual.

Boas práticas:

redimensione imagens antes de enviar;
envie apenas a região relevante da tela;
reduza a frequência de frames em vídeo;
evite reenviar imagens idênticas;
use cache quando fizer sentido.

Para mais contexto sobre otimização de custo, veja como reduzir custos de token do agente e a análise da guerra de preços de LLMs chineses de 2026. As tarifas oficiais ficam na página de preços do Model Studio.

Especificações e velocidade

	Qwen 3.7 Plus	Qwen 3.7 Max
Modalidades de entrada	Texto, imagem, vídeo	Somente texto
Janela de contexto	1M, compartilhada com visão	1M
Teto de execução autônoma	35 horas	35 horas
Latência somente de texto	Linha de base	~7–15% mais rápido em caminhos frios
Pesos	Proprietário, somente API	Proprietário, somente API

A vantagem silenciosa do Max é a latência. Em inicializações frias somente de texto, ele responde mais rápido. Isso pode importar em produtos de chat, autocomplete ou suporte, onde o tempo até o primeiro token é percebido pelo usuário. A análise independente acompanha esse equilíbrio entre velocidade e inteligência.

Ambos são proprietários e funcionam via Alibaba Cloud Model Studio. Nenhum deles é indicado se você precisa baixar pesos ou fazer auto-hospedagem.

Qual você deve escolher

Escolha Qwen 3.7 Plus se:

sua aplicação usa imagens, capturas de tela, PDFs ou vídeo;
você está construindo agentes que interagem com GUI;
você precisa reduzir custo por chamada;
você quer uma opção padrão para produção;
sua carga de trabalho mistura texto com contexto visual.

Escolha Qwen 3.7 Max se:

a carga é 100% texto;
latência é mais importante que custo;
você quer a melhor pontuação textual possível;
você nunca envia imagem, vídeo ou documento visual;
o custo premium é justificável pelo ganho pequeno em texto.

Para a maioria das equipes, Plus é o padrão. Max é uma escolha especializada.

Mapeamento por carga de trabalho

Carga de trabalho	Escolha	Por quê
Agente de QA com captura de tela ou regressão visual	Plus	Precisa de GUI grounding; apenas Plus “vê” a tela
Extração de fatura, recibo ou PDF escaneado	Plus	Imagens de documentos exigem entrada visual
Classificação de texto de alto volume	Plus	Qualidade próxima com custo muito menor
Chatbot de suporte de baixa latência	Max	Inicializações frias somente de texto podem importar
Execução autônoma longa de codificação	Qualquer um	Empate no SWE-Bench Pro; deixe o custo decidir
Agente com uso intenso de terminal	Plus	Melhor resultado no Terminal-Bench
Produto com entrada multimodal futura	Plus	Evita troca de modelo quando imagem/vídeo entrar no roadmap

Regra prática:

Se a carga envolve visão: use Plus.
Se a carga é texto e custo importa: use Plus.
Se a carga é texto e latência extrema importa: considere Max.

Testando ambos com Apidog

Ambos os modelos usam o mesmo endpoint compatível com OpenAI no Model Studio. Na prática, alternar entre eles é uma troca no ID do modelo.

Exemplo conceitual:

{
  "model": "qwen3.7-plus",
  "messages": [
    {
      "role": "user",
      "content": "Explique este erro e sugira uma correção."
    }
  ]
}

Para comparar com o Max:

{
  "model": "qwen3.7-max",
  "messages": [
    {
      "role": "user",
      "content": "Explique este erro e sugira uma correção."
    }
  ]
}

O fluxo recomendado é:

crie duas requisições com o mesmo payload;
altere apenas o campo model;
envie para ambos;
compare JSON bruto, latência e qualidade da resposta;
estime custo com base em entrada e saída;
escolha o modelo com melhor relação custo/resultado para sua tarefa.

O Apidog ajuda nesse ciclo porque permite:

enviar requisições para ambos os modelos;
comparar respostas lado a lado;
inspecionar JSON bruto;
armazenar a chave do Model Studio por ambiente;
simular endpoints enquanto o app ainda está em desenvolvimento;
depurar chamadas de ferramentas em fluxos de agente.

Para requisições multimodais do Plus, o guia da API Qwen 3.7 Plus mostra o formato de payload com imagem e vídeo. Para o caminho somente texto, veja o guia da API base Qwen 3.7. Quando qualquer modelo encadeia chamadas de ferramentas, o depurador de agente de IA do Apidog mostra a sequência completa.

Baixe o Apidog para testar e comparar os dois modelos Qwen 3.7 antes de conectá-los à produção.

FAQ

O Qwen 3.7 Plus é melhor que o Max?

Para a maioria das cargas de trabalho, sim. Ele adiciona visão, custa muito menos e empata com o Max em codificação e uso de ferramentas. O Max mantém uma pequena vantagem em texto puro e latência somente de texto.

Quanto mais barato é o Plus?

Cerca de seis vezes mais barato na entrada: US$ 0,40 contra US$ 2,50 por milhão de tokens. Na saída, é quase cinco vezes mais barato: US$ 1,60 contra US$ 7,50.

Eles compartilham a mesma janela de contexto?

Sim. Ambos têm janela de 1M de tokens. No Plus, imagens e vídeos consomem tokens desse mesmo orçamento.

O Max pode processar imagens?

Não. O Max é somente texto. Se você precisa enviar imagem ou vídeo, use o Plus.

Algum deles é open source?

Não. Ambos são proprietários e rodam via Alibaba Cloud Model Studio. Você não pode baixar nem auto-hospedar os pesos.

Qual é mais rápido?

O Max é aproximadamente 7% a 15% mais rápido em caminhos frios somente de texto. Para fluxos com imagem, vídeo ou GUI, o Plus é a única opção entre os dois.

Conclusão

Qwen 3.7 Max e Qwen 3.7 Plus não resolvem exatamente o mesmo problema. O Max é a opção textual com pequena vantagem de velocidade e qualidade. O Plus é o generalista multimodal, muito mais barato e mais útil para a maioria dos fluxos reais.

Comece com Qwen 3.7 Plus. Use Qwen 3.7 Max apenas quando sua carga for estritamente textual, sensível à latência e justificar o custo premium.

Em qualquer caso, teste a API no Apidog antes de ir para produção.

DEV Community