Lucas

Posted on Jun 3 • Originally published at apidog.com

Qwen 3.7 Plus: Modelo de agente multimodal da Alibaba, desempenho e precificação

A Alibaba lançou o Qwen 3.7 Plus poucos dias após o Qwen3.7-Max. Na prática: o Plus mantém o contexto de 1M de tokens e a estrutura de agente do Max, adiciona entrada de imagem e vídeo, e custa aproximadamente um sexto do preço do Max. Se você acompanhou a família, o guia sobre o que é o Qwen 3.7 cobre o carro-chefe de texto; aqui o foco é como usar a nova variante Plus.

Experimente o Apidog hoje

Antes de implementar: o Qwen 3.7 Plus é proprietário e disponível apenas por API. Não há pesos abertos, então você não pode baixar, ajustar ou auto-hospedar o modelo. Isso muda o fluxo de trabalho: em vez de operar pesos localmente, você vai chamar endpoints, montar payloads multimodais e depurar respostas. Para isso, ferramentas como o Apidog ajudam a testar e inspecionar as chamadas.

A resposta curta

Qwen 3.7 Plus é a versão multimodal e mais barata do Qwen3.7-Max. Ele aceita texto, imagens e vídeo como entrada e é especialmente útil para agentes que precisam interpretar interfaces gráficas.

Exemplos de uso:

enviar uma captura de tela e pedir qual botão deve ser clicado;
analisar um protótipo visual e gerar código de UI;
processar documentos, PDFs ou quadros de vídeo;
executar agentes que combinam GUI, navegador, CLI e chamadas de ferramentas.

Em texto puro, o Max ainda tem uma pequena vantagem. Mas quando a tarefa inclui qualquer sinal visual, o Plus é a escolha mais prática — principalmente pelo custo menor. A principal limitação é o modelo ser fechado.

O que muda em relação ao Qwen 3.7 Max

As diferenças mais importantes são estas:

1. Entrada multimodal

O Max é somente texto. O Plus aceita:

texto;
imagens;
vídeo.

Isso permite usar o mesmo modelo para leitura de screenshots, análise de documentos visuais, interpretação de interfaces e compreensão de vídeo.

2. Fundamentação de GUI

O Plus foi posicionado como um agente interativo multimodal. Ele pode olhar para uma tela e retornar ações estruturadas, por exemplo:

Clique em (x=487, y=232)

Esse tipo de saída é o que permite criar agentes de uso de computador que interagem com interfaces reais.

3. Preço menor

O Plus opera em uma faixa de preço bem abaixo do Max, o que o torna mais viável para testes, automações e agentes com muitas chamadas.

Recurso	Qwen 3.7 Plus	Qwen 3.7 Max
Modalidades de entrada	Texto, imagem, vídeo	Somente texto
Janela de contexto	1M tokens, compartilhados com visão	1M tokens
Entrada / saída por 1M	$0.40 / $1.60	$2.50 / $7.50
Entrada em cache por 1M	$0.08	$0.25
Fundamentação de GUI, ScreenSpot Pro	79.0	Nenhum
Terminal-Bench	70.3	69.7
Teto de execução autônoma	35 horas	35 horas

Benchmarks

Os números de lançamento, apoiados por análises iniciais, indicam o seguinte padrão: o Plus fica próximo do Max em tarefas textuais e se destaca quando há entrada visual.

Principais resultados:

ScreenSpot Pro: 79.0

Mede a capacidade de olhar para uma captura de tela e retornar coordenadas de pixel. O Max não executa esse tipo de benchmark porque não tem entrada visual.
Terminal-Bench: 70.3

Fica ligeiramente à frente do Max, que marca 69.7.
SWE-Bench Pro: cerca de 60%

Praticamente no mesmo nível do Max, que fica em 60.6%.
MCP-Atlas: 76.4

Empata com o Max em orquestração de uso de ferramentas.
LM Arena

O Plus fica um pouco atrás do Max em texto e codificação. Para tarefas puramente textuais, o Max ainda mantém vantagem.

Regra prática: escolha o Plus quando a tarefa envolver uma captura de tela, mockup, gráfico, documento visual ou vídeo. Para comparação direta em texto, veja o comparativo Qwen 3.7 vs GPT-5.5 vs Opus 4.7. Como os números vêm do fornecedor e de revisores iniciais, trate-os como referência, não como garantia absoluta.

Preço: o nível multimodal econômico

O Qwen 3.7 Plus custa:

$0.40 por 1M de tokens de entrada;
$1.60 por 1M de tokens de saída;
$0.08 por 1M de tokens de entrada em cache.

Isso o torna aproximadamente seis vezes mais barato que o Max na entrada e quase cinco vezes mais barato na saída.

Mas há uma ressalva importante: imagens e vídeo consomem a mesma janela de contexto de 1M de tokens. Uma imagem de alta resolução pode consumir milhares de tokens, e quadros de vídeo podem crescer rapidamente.

Ao planejar custos, considere:

custo_total = tokens_texto + tokens_imagem + tokens_video + tokens_saida

Para agentes multimodais longos, monitore:

tamanho das imagens enviadas;
quantidade de frames de vídeo;
histórico acumulado da conversa;
uso de cache;
quantidade de chamadas de ferramentas.

Para entender o contexto mais amplo de preços, veja a análise sobre a guerra de preços chinesa de LLMs de 2026.

A pegadinha: proprietário e apenas por API

O Qwen ganhou adoção empresarial em parte por causa de pesos abertos. Modelos anteriores da família foram lançados com licenças Apache 2.0 ou de uso aberto, permitindo que equipes baixassem, ajustassem e executassem modelos em infraestrutura própria.

O Qwen 3.7 Plus não segue esse caminho.

Ele é entregue como uma API comercial gerenciada pelo Alibaba Cloud Model Studio. Isso significa:

você não pode baixar os pesos;
você não pode auto-hospedar;
você não pode executar offline;
você depende da disponibilidade e das políticas da nuvem da Alibaba.

Para ambientes regulamentados, com isolamento de rede ou requisitos fortes de soberania de dados, isso pode ser um bloqueador.

Uma variante Plus com pesos abertos foi mencionada para o terceiro trimestre de 2026, mas não está confirmada. Se pesos abertos são obrigatórios hoje, este modelo não é a melhor escolha.

Como acessar o Qwen 3.7 Plus

Você tem duas opções principais.

1. API

Use o Alibaba Cloud Model Studio. O endpoint é compatível com OpenAI, então você pode usar padrões parecidos com os da API da OpenAI.

O guia sobre como usar a API do Qwen 3.7 cobre autenticação e primeira chamada. Para o Plus, você adiciona partes de imagem ou vídeo ao payload.

Exemplo mínimo com imagem:

from openai import OpenAI

client = OpenAI(
    api_key="SUA_CHAVE_MODEL_STUDIO",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Qual botão envia este formulário? Dê as coordenadas de pixel."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/screenshot.png"
                    }
                },
            ],
        }
    ],
)

print(resp.choices[0].message.content)

Antes de colocar em produção, confirme na documentação do Model Studio:

identificador exato do modelo;
URL base da região;
limites de payload;
formatos suportados para imagem e vídeo;
política de cache e cobrança.

2. Chat no navegador

Você também pode testar em chat.qwen.ai antes de escrever código. Se quiser experimentar a família sem conta, o guia Qwen 3.7 gratuitamente mostra caminhos gratuitos.

Como estruturar um fluxo de agente com o Plus

Para agentes de GUI, pense no fluxo como um loop:

capturar a tela;
enviar screenshot ao Qwen 3.7 Plus;
pedir uma ação estruturada;
executar a ação no navegador, desktop ou automação;
capturar o novo estado;
repetir até concluir.

Um prompt útil deve pedir formato previsível:

Você é um agente de automação de GUI.

Analise a captura de tela e retorne a próxima ação em JSON.

Formato:
{
  "action": "click" | "type" | "wait" | "done",
  "x": number,
  "y": number,
  "text": string,
  "reason": string
}

Tarefa: enviar o formulário de cadastro.

Isso facilita o parsing no seu código:

import json

content = resp.choices[0].message.content
action = json.loads(content)

if action["action"] == "click":
    click(action["x"], action["y"])

elif action["action"] == "type":
    type_text(action["text"])

elif action["action"] == "wait":
    wait()

elif action["action"] == "done":
    finish()

Na prática, você também deve validar a resposta antes de executar qualquer ação:

def validate_action(action):
    allowed = {"click", "type", "wait", "done"}

    if action.get("action") not in allowed:
        raise ValueError("Ação inválida")

    if action["action"] == "click":
        if not isinstance(action.get("x"), int):
            raise ValueError("x inválido")
        if not isinstance(action.get("y"), int):
            raise ValueError("y inválido")

    return True

Isso reduz o risco de ações inesperadas em automações reais.

Quem deve usá-lo

Use o Qwen 3.7 Plus se você está criando:

agentes de uso de computador, que clicam em interfaces a partir de screenshots;
screenshot-to-code, para transformar telas em componentes;
mockup-to-UI, para gerar front-end a partir de protótipos;
análise de documentos e PDFs, quando a estrutura visual importa;
compreensão de vídeo, com custo menor por token;
agentes longos, com múltiplas chamadas de ferramentas.

Continue com o Max se:

sua carga de trabalho é puramente textual;
você está otimizando especificamente para benchmarks textuais;
precisa da menor latência possível em caminhos apenas de texto.

Para cargas mistas, o Plus tende a ser o padrão mais racional: é multimodal e mais barato. Se você está comparando com modelos abertos e econômicos, veja o comparativo MiniMax M3 vs DeepSeek V4 vs Qwen 3.7.

Testando o Qwen 3.7 Plus com Apidog

Como o Plus é apenas por API, a qualidade da sua implementação depende de conseguir testar, observar e depurar cada chamada.

Solicitações multimodais podem falhar por vários motivos:

imagem grande demais;
URL inacessível;
payload malformado;
modelo incorreto;
região errada;
resposta difícil de parsear;
histórico longo demais;
custo inesperado por uso de vídeo ou imagem.

O Apidog ajuda nesse fluxo porque permite:

enviar requisições para o endpoint do Qwen 3.7 Plus;
testar payloads com imagem e vídeo;
inspecionar respostas brutas;
organizar chaves do Model Studio por ambiente;
documentar endpoints internos;
simular respostas enquanto sua aplicação ainda está em desenvolvimento.

Para agentes que encadeiam GUI, CLI e ferramentas, o depurador de agentes de IA do Apidog ajuda a visualizar a sequência de chamadas e identificar onde uma execução falhou.

Você pode baixar o Apidog para testar, depurar e simular a API do Qwen 3.7 Plus antes de levar o fluxo para produção.

FAQ

O Qwen 3.7 Plus é de código aberto?

Não. Ele é proprietário e disponível apenas como uma API gerenciada pelo Alibaba Cloud Model Studio. Você não pode baixar ou auto-hospedar os pesos. Uma variante com pesos abertos foi sugerida para o terceiro trimestre de 2026, mas não está confirmada.

Qwen 3.7 Plus ou Max: qual devo usar?

Use o Plus se precisar de visão, capturas de tela, PDFs, vídeo ou preço menor. Use o Max se sua carga for puramente textual e você estiver otimizando para benchmarks ou latência de texto.

Quanto custa o Qwen 3.7 Plus?

$0.40 por milhão de tokens de entrada, $1.60 por milhão de tokens de saída e $0.08 por milhão de tokens de entrada em cache. Isso é aproximadamente seis vezes mais barato que o Qwen3.7-Max na entrada.

O Qwen 3.7 Plus lida com vídeo?

Sim. Ele aceita texto, imagens e vídeo como entrada. Lembre-se de que tokens visuais compartilham a janela de contexto de 1M de tokens.

Qual é a janela de contexto?

1M de tokens, compartilhados entre texto, imagem e vídeo.

Como acesso o Qwen 3.7 Plus?

Pela API do Alibaba Cloud Model Studio ou pelo navegador em chat.qwen.ai.

Conclusão

O Qwen 3.7 Plus adiciona visão ao carro-chefe de agentes da Alibaba e reduz o preço para um nível mais acessível. Para desenvolvedores criando agentes de GUI, automações baseadas em captura de tela, análise de documentos ou compreensão de vídeo, ele é uma opção multimodal forte e econômica.

A troca é clara: você ganha multimodalidade e preço menor, mas aceita pesos fechados e dependência da nuvem da Alibaba.

Se essa troca faz sentido para seu caso, o próximo passo é testar a API. Monte payloads reais, valide respostas estruturadas, simule falhas e depure as chamadas no Apidog antes de colocar o agente em produção.

DEV Community