A Alibaba lançou dois carros-chefe da linha Qwen 3.7 em duas semanas: Qwen3.7-Max, focado em raciocínio somente com texto, e Qwen3.7-Plus, a versão multimodal com visão e custo bem menor. Como ambos têm contexto de 1M de tokens e teto de execução autônoma de 35 horas, a escolha precisa considerar benchmark, preço, latência e tipo real de entrada.
Este guia compara Qwen 3.7 Plus e Qwen 3.7 Max do ponto de vista de implementação: quando usar cada um, como avaliar custo, quais benchmarks importam e como testar os dois via API. Se quiser contexto antes, veja a visão geral do Qwen 3.7 Plus e o guia o que é Qwen 3.7. Na prática, qualquer escolha passa por chamadas de API, validação de payloads e comparação de respostas; é aí que o Apidog ajuda no fluxo de teste.
A resposta curta
Use Qwen 3.7 Plus por padrão.
Ele:
- empata com o Max em uso de ferramentas;
- supera o Max em tarefas de terminal;
- aceita texto, imagem e vídeo;
- custa cerca de seis vezes menos na entrada;
- é suficiente para a maioria dos agentes, pipelines de automação e apps com LLM.
Use Qwen 3.7 Max apenas quando sua aplicação for estritamente textual e muito sensível à latência. Ele mantém uma pequena vantagem em rankings de texto puro e tende a responder mais rápido em caminhos frios somente de texto.
A diferença principal
A diferença prática é simples:
| Modelo | Melhor uso |
|---|---|
| Qwen 3.7 Max | Raciocínio, código e agentes baseados apenas em texto |
| Qwen 3.7 Plus | Texto + imagem + vídeo + GUI grounding com custo menor |
O Max é o carro-chefe textual. Ele raciocina, codifica e executa cadeias longas de agentes a partir de entrada de texto.
O Plus adiciona visão. Ele aceita imagens e vídeos e consegue fundamentar interfaces gráficas a ponto de retornar coordenadas de clique a partir de uma captura de tela.
Na implementação, isso muda o tipo de produto que você pode construir:
- agente que lê screenshots;
- automação de UI;
- análise de documentos escaneados;
- extração de dados de recibos e faturas;
- QA visual;
- workflows com vídeo ou imagem.
Você troca uma pequena vantagem de texto e latência por multimodalidade e custo muito menor.
Benchmarks
Os números mostram um padrão consistente: Plus fica ligeiramente atrás em texto puro, empata em ferramentas e lidera quando visão entra no fluxo.
| Benchmark | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| LM Arena (texto) | #15 | #13 |
| LM Arena (codificação) | #12 | #10 |
| Vision Arena | #16 | Não aplicável |
| SWE-Bench Pro | ~60% | 60.6% |
| Terminal-Bench (2.0 Terminus) | 70.3 | 69.7 |
| ScreenSpot Pro (GUI grounding) | 79.0 | Nenhum |
| MCP-Atlas (uso de ferramentas) | 76.4 | 76.4 |
Como interpretar esses números
1. SWE-Bench Pro é praticamente empate
Plus atinge cerca de 60%, contra 60,6% do Max. Em tarefas reais de software, a capacidade multimodal do Plus não parece reduzir de forma relevante a capacidade de codificação. Para comparar com outros modelos de ponta, veja a comparação Qwen 3.7 vs GPT-5.5 vs Opus 4.7.
2. Plus vence levemente no Terminal-Bench
No Terminal-Bench, Plus marca 70.3 contra 69.7 do Max. Para agentes que executam comandos, usam shell e iteram sobre erros de terminal, o modelo mais barato também é ligeiramente mais forte.
3. GUI grounding é o divisor real
ScreenSpot Pro 79.0 coloca o Plus em um nível forte para tarefas de interface. O Max não executa esse tipo de benchmark porque não processa imagens.
Se seu agente precisa “olhar” para uma tela, interpretar uma UI ou clicar em coordenadas, somente o Plus se qualifica.
Como sempre, use benchmarks como direção, não como verdade absoluta. O site do SWE-bench explica o que cada suíte mede.
Preços
Aqui está a diferença mais importante para produção.
| Qwen 3.7 Plus | Qwen 3.7 Max | |
|---|---|---|
| Entrada / 1M tokens | US$ 0.40 | US$ 2.50 |
| Saída / 1M tokens | US$ 1.60 | US$ 7.50 |
| Entrada em cache / 1M | US$ 0.08 | US$ 0.25 |
O Plus é:
- cerca de 6x mais barato na entrada;
- quase 5x mais barato na saída;
- mais barato também em entrada em cache.
Para agentes de alto volume, pipelines de classificação, automações longas ou produtos com muitos usuários, essa diferença decide o orçamento.
Atenção ao custo de imagem e vídeo
No Plus, imagens e vídeos são tokenizados e consomem o mesmo orçamento de contexto de 1M tokens. Portanto, uma carga pesada em screenshots ou vídeo pode custar mais por chamada do que uma chamada apenas textual.
Boas práticas:
- redimensione imagens antes de enviar;
- envie apenas a região relevante da tela;
- reduza a frequência de frames em vídeo;
- evite reenviar imagens idênticas;
- use cache quando fizer sentido.
Para mais contexto sobre otimização de custo, veja como reduzir custos de token do agente e a análise da guerra de preços de LLMs chineses de 2026. As tarifas oficiais ficam na página de preços do Model Studio.
Especificações e velocidade
| Qwen 3.7 Plus | Qwen 3.7 Max | |
|---|---|---|
| Modalidades de entrada | Texto, imagem, vídeo | Somente texto |
| Janela de contexto | 1M, compartilhada com visão | 1M |
| Teto de execução autônoma | 35 horas | 35 horas |
| Latência somente de texto | Linha de base | ~7–15% mais rápido em caminhos frios |
| Pesos | Proprietário, somente API | Proprietário, somente API |
A vantagem silenciosa do Max é a latência. Em inicializações frias somente de texto, ele responde mais rápido. Isso pode importar em produtos de chat, autocomplete ou suporte, onde o tempo até o primeiro token é percebido pelo usuário. A análise independente acompanha esse equilíbrio entre velocidade e inteligência.
Ambos são proprietários e funcionam via Alibaba Cloud Model Studio. Nenhum deles é indicado se você precisa baixar pesos ou fazer auto-hospedagem.
Qual você deve escolher
Escolha Qwen 3.7 Plus se:
- sua aplicação usa imagens, capturas de tela, PDFs ou vídeo;
- você está construindo agentes que interagem com GUI;
- você precisa reduzir custo por chamada;
- você quer uma opção padrão para produção;
- sua carga de trabalho mistura texto com contexto visual.
Escolha Qwen 3.7 Max se:
- a carga é 100% texto;
- latência é mais importante que custo;
- você quer a melhor pontuação textual possível;
- você nunca envia imagem, vídeo ou documento visual;
- o custo premium é justificável pelo ganho pequeno em texto.
Para a maioria das equipes, Plus é o padrão. Max é uma escolha especializada.
Mapeamento por carga de trabalho
| Carga de trabalho | Escolha | Por quê |
|---|---|---|
| Agente de QA com captura de tela ou regressão visual | Plus | Precisa de GUI grounding; apenas Plus “vê” a tela |
| Extração de fatura, recibo ou PDF escaneado | Plus | Imagens de documentos exigem entrada visual |
| Classificação de texto de alto volume | Plus | Qualidade próxima com custo muito menor |
| Chatbot de suporte de baixa latência | Max | Inicializações frias somente de texto podem importar |
| Execução autônoma longa de codificação | Qualquer um | Empate no SWE-Bench Pro; deixe o custo decidir |
| Agente com uso intenso de terminal | Plus | Melhor resultado no Terminal-Bench |
| Produto com entrada multimodal futura | Plus | Evita troca de modelo quando imagem/vídeo entrar no roadmap |
Regra prática:
Se a carga envolve visão: use Plus.
Se a carga é texto e custo importa: use Plus.
Se a carga é texto e latência extrema importa: considere Max.
Testando ambos com Apidog
Ambos os modelos usam o mesmo endpoint compatível com OpenAI no Model Studio. Na prática, alternar entre eles é uma troca no ID do modelo.
Exemplo conceitual:
{
"model": "qwen3.7-plus",
"messages": [
{
"role": "user",
"content": "Explique este erro e sugira uma correção."
}
]
}
Para comparar com o Max:
{
"model": "qwen3.7-max",
"messages": [
{
"role": "user",
"content": "Explique este erro e sugira uma correção."
}
]
}
O fluxo recomendado é:
- crie duas requisições com o mesmo payload;
- altere apenas o campo
model; - envie para ambos;
- compare JSON bruto, latência e qualidade da resposta;
- estime custo com base em entrada e saída;
- escolha o modelo com melhor relação custo/resultado para sua tarefa.
O Apidog ajuda nesse ciclo porque permite:
- enviar requisições para ambos os modelos;
- comparar respostas lado a lado;
- inspecionar JSON bruto;
- armazenar a chave do Model Studio por ambiente;
- simular endpoints enquanto o app ainda está em desenvolvimento;
- depurar chamadas de ferramentas em fluxos de agente.
Para requisições multimodais do Plus, o guia da API Qwen 3.7 Plus mostra o formato de payload com imagem e vídeo. Para o caminho somente texto, veja o guia da API base Qwen 3.7. Quando qualquer modelo encadeia chamadas de ferramentas, o depurador de agente de IA do Apidog mostra a sequência completa.
Baixe o Apidog para testar e comparar os dois modelos Qwen 3.7 antes de conectá-los à produção.
FAQ
O Qwen 3.7 Plus é melhor que o Max?
Para a maioria das cargas de trabalho, sim. Ele adiciona visão, custa muito menos e empata com o Max em codificação e uso de ferramentas. O Max mantém uma pequena vantagem em texto puro e latência somente de texto.
Quanto mais barato é o Plus?
Cerca de seis vezes mais barato na entrada: US$ 0,40 contra US$ 2,50 por milhão de tokens. Na saída, é quase cinco vezes mais barato: US$ 1,60 contra US$ 7,50.
Eles compartilham a mesma janela de contexto?
Sim. Ambos têm janela de 1M de tokens. No Plus, imagens e vídeos consomem tokens desse mesmo orçamento.
O Max pode processar imagens?
Não. O Max é somente texto. Se você precisa enviar imagem ou vídeo, use o Plus.
Algum deles é open source?
Não. Ambos são proprietários e rodam via Alibaba Cloud Model Studio. Você não pode baixar nem auto-hospedar os pesos.
Qual é mais rápido?
O Max é aproximadamente 7% a 15% mais rápido em caminhos frios somente de texto. Para fluxos com imagem, vídeo ou GUI, o Plus é a única opção entre os dois.
Conclusão
Qwen 3.7 Max e Qwen 3.7 Plus não resolvem exatamente o mesmo problema. O Max é a opção textual com pequena vantagem de velocidade e qualidade. O Plus é o generalista multimodal, muito mais barato e mais útil para a maioria dos fluxos reais.
Comece com Qwen 3.7 Plus. Use Qwen 3.7 Max apenas quando sua carga for estritamente textual, sensível à latência e justificar o custo premium.
Em qualquer caso, teste a API no Apidog antes de ir para produção.



Top comments (0)