Lucas

Posted on May 21 • Originally published at apidog.com

Como Usar a API Qwen 3.7? Guia Completo

A equipe Qwen da Alibaba lançou o Qwen3.7-Max-Preview em meados de maio de 2026, e a pergunta prática para desenvolvedores é: como chamar esse modelo a partir do seu próprio código? O modelo é um sistema de raciocínio carro-chefe com janela de contexto de 1 milhão de tokens e rastreamentos explícitos de cadeia de pensamento, útil para backends de agentes, análise de documentos longos e geração de código. Porém, como ainda está em “preview”, o acesso é restrito, a superfície da API pode mudar e você deve confirmar IDs de modelo e endpoints antes de colocar qualquer integração em produção.

Experimente o Apidog hoje

TL;DR

O Qwen3.7-Max-Preview é o modelo de raciocínio carro-chefe da Alibaba, lançado em prévia em 14 de maio de 2026, com janela de contexto de 1 milhão de tokens. Durante a prévia, a forma mais direta de testá-lo é pelo Qwen Chat (chat.qwen.ai). Para integração via API, o caminho é o Alibaba Cloud Model Studio, também conhecido como DashScope, usando um endpoint compatível com OpenAI: você configura uma URL base, envia sua chave como Bearer token e chama /chat/completions.

Como a camada 3.7 ainda está em prévia, confirme sempre o ID exato do modelo e o endpoint na documentação oficial antes de lançar. Enquanto a disponibilidade se estabiliza, use o Apidog para testar, documentar e simular o endpoint.

Como acessar o Qwen 3.7 agora

O Qwen disponibiliza modelos por diferentes interfaces, mas elas não ficam disponíveis ao mesmo tempo. No final de maio de 2026, o cenário prático é este:

1. Qwen Chat

Use chat.qwen.ai para avaliação rápida.

Passos:

Crie ou acesse uma conta Qwen.
Abra o seletor de modelos.
Escolha qwen3.7-max-preview, se disponível.
Ative o Modo de Pensamento para visualizar o raciocínio.

Esse caminho é gratuito, com limites de uso durante a prévia. Ele serve para testar prompts e entender o comportamento do modelo, mas não é uma API para integração.

2. Alibaba Cloud Model Studio / DashScope

Para integração real, use o Alibaba Cloud Model Studio. Ele expõe modelos Qwen por uma API compatível com OpenAI, o que permite reaproveitar código que já usa o SDK da OpenAI, alterando principalmente:

base_url
chave de API
model

Modelos como qwen3.6-max-preview e a família qwen-max já seguem esse padrão. A camada qwen3.7-max-preview pode ainda não estar disponível publicamente via API quando você ler este artigo, então valide a lista atual no console do Model Studio.

3. Endpoint compatível com OpenAI

A estrutura geral é:

POST {DASHSCOPE_BASE_URL}/chat/completions
Authorization: Bearer {DASHSCOPE_API_KEY}
Content-Type: application/json

Exemplo de URL base para Singapura:

https://dashscope-intl.aliyuncs.com/compatible-mode/v1

Como o identificador do modelo pode mudar durante a prévia, use a documentação oficial do Qwen e a lista de modelos do Model Studio como fonte da verdade.

Para uma alternativa de custo zero enquanto aguarda o acesso à API, veja também o guia sobre como usar o Qwen 3.7 gratuitamente.

Métodos de acesso em um relance

Método	Acesso à API	Custo	Melhor para
Qwen Chat (chat.qwen.ai)	Não	Gratuito, com limite de taxa	Avaliação rápida e teste de prompts
Alibaba Cloud Model Studio / DashScope	Sim, compatível com OpenAI	Pague por token	Integração em produção
Qwen no Hugging Face	Pesos, quando lançados	Gratuito em self-host	Modelos de peso aberto, não a prévia Max
Gateways de terceiros	Varia	Varia	Roteamento multi-modelo

Importante: modelos Qwen de peso aberto podem chegar ao Hugging Face, mas a camada Max-Preview é proprietária. Não espere pesos para download de qwen3.7-max-preview.

Obtendo uma chave de API do Qwen 3.7

O acesso à API passa por uma conta Alibaba Cloud.

Passos:

Crie uma conta Alibaba Cloud.
Acesse o console do Model Studio em modelstudio.console.alibabacloud.com.
Ative o Model Studio para sua conta e região.
Abra a seção de chaves de API.
Gere uma chave.
Copie a chave e armazene-a como segredo.

As chaves são restritas à região. Uma chave criada para Singapura não autentica contra o endpoint de Pequim.

Escolha a URL base correta:

Região	URL base
Singapura	`https://dashscope-intl.aliyuncs.com/compatible-mode/v1`
EUA (Virgínia)	`https://dashscope-us.aliyuncs.com/compatible-mode/v1`
Pequim (China)	`https://dashscope.aliyuncs.com/compatible-mode/v1`

Nunca commite a chave no repositório. Use variável de ambiente:

# macOS / Linux
export DASHSCOPE_API_KEY="sk-your-key-here"

# Windows PowerShell
setx DASHSCOPE_API_KEY "sk-your-key-here"

No código, leia DASHSCOPE_API_KEY em tempo de execução. Esse padrão facilita rotação de chaves e evita vazamento de segredo. O mesmo cuidado aparece em integrações com outros modelos, como no guia da API do Gemini 3.5.

Sua primeira requisição: Python, curl e JavaScript

O Model Studio expõe o Qwen por uma API compatível com OpenAI. Você pode usar:

SDK da OpenAI apontando para a URL base do DashScope
chamada HTTP direta

Antes de rodar os exemplos, confirme se qwen3.7-max-preview é o ID aceito pela API na sua região. Durante a prévia, uma camada anterior como qwen3.6-max-preview pode estar ativa enquanto a 3.7 ainda não foi liberada via API.

Python com o SDK da OpenAI

Instale:

pip install openai

Envie uma requisição:

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

response = client.chat.completions.create(
    model="qwen3.7-max-preview",
    messages=[
        {
            "role": "system",
            "content": "Você é um assistente de codificação preciso."
        },
        {
            "role": "user",
            "content": "Escreva uma função Python que inverte uma lista encadeada."
        },
    ],
)

print(response.choices[0].message.content)

A estrutura segue o padrão Chat Completions:

system: define comportamento e contexto
user: mensagem do usuário
choices[0].message.content: texto gerado pelo modelo

curl

Use curl para validar rapidamente chave, endpoint e ID do modelo:

curl 'https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions' \
  --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "qwen3.7-max-preview",
    "messages": [
      {
        "role": "user",
        "content": "Explique idempotência em APIs REST em duas frases."
      }
    ]
  }'

Se estiver tudo correto, a resposta será um JSON com a conclusão. Se falhar, verifique principalmente:

região do endpoint
chave de API
ID do modelo
permissão da conta para acessar a prévia

JavaScript / Node.js

Instale:

npm install openai

Exemplo:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DASHSCOPE_API_KEY,
  baseURL: "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
});

const response = await client.chat.completions.create({
  model: "qwen3.7-max-preview",
  messages: [
    {
      role: "user",
      content: "Liste três desvantagens do GraphQL em relação ao REST.",
    },
  ],
});

console.log(response.choices[0].message.content);

A vantagem do endpoint compatível com OpenAI é manter a mesma estrutura de requisição em diferentes linguagens.

Respostas em streaming

Para interfaces voltadas ao usuário, prefira streaming. Assim você não espera a conclusão completa antes de exibir saída.

Em Python:

stream = client.chat.completions.create(
    model="qwen3.7-max-preview",
    messages=[
        {
            "role": "user",
            "content": "Resuma o teorema CAP."
        },
    ],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content
    if delta:
        print(delta, end="", flush=True)

Em Node.js:

const stream = await client.chat.completions.create({
  model: "qwen3.7-max-preview",
  messages: [
    {
      role: "user",
      content: "Resuma o teorema CAP.",
    },
  ],
  stream: true,
});

for await (const chunk of stream) {
  process.stdout.write(chunk.choices[0]?.delta?.content || "");
}

Streaming é especialmente útil em modelos de raciocínio, porque eles podem levar mais tempo antes de produzir a resposta final. Com streaming, você pode exibir progresso, um indicador de digitação ou a resposta conforme ela é gerada.

O parâmetro de raciocínio e pensamento

O Qwen3.7-Max-Preview é um modelo de raciocínio. Ele pode produzir uma cadeia de pensamento explícita em blocos <think> antes da resposta final. Isso pode ajudar em tarefas como:

matemática multi-passos
geração e revisão de código
planejamento
análise de documentos
depuração de raciocínio

Em modelos Qwen recentes servidos pelo DashScope, o comportamento de pensamento pode ser controlado por um flag como enable_thinking. Confirme o nome exato do parâmetro na referência atual da API, porque controles de raciocínio podem mudar entre versões.

Exemplo conceitual:

response = client.chat.completions.create(
    model="qwen3.7-max-preview",
    messages=[
        {
            "role": "user",
            "content": (
                "Um trem parte às 14h a uma velocidade média de 60 mph. "
                "Um segundo trem parte às 15h a 75 mph na mesma rota. "
                "Quando o segundo alcança o primeiro?"
            ),
        },
    ],
    extra_body={
        "enable_thinking": True
    },
)

print(response.choices[0].message.content)

Use esse recurso com critério:

Pensamento custa tokens e latência. O rastro de raciocínio é saída gerada.
Ative para problemas difíceis. Ele faz mais sentido em tarefas multi-passos.
Desative para tarefas simples. Classificação, formatação e respostas curtas normalmente não precisam disso.
Decida se vai exibir o rastro. Alguns produtos mostram <think>; outros removem e exibem apenas a resposta final.

Se você está comparando modelos de raciocínio, veja a análise Qwen 3.7 vs GPT-5.5 vs Opus 4.7. Para agentes que consomem muitos tokens, as técnicas do artigo sobre como reduzir custos de tokens de agentes também se aplicam.

Tratamento de erros e limites de taxa

Falhas comuns em uma integração com o Qwen:

Status HTTP	Significado	O que fazer
400	Requisição inválida: JSON malformado ou parâmetro inválido	Verifique corpo, ID do modelo e nomes dos campos
401	Chave de API inválida ou ausente	Confira a chave e se ela corresponde à região do endpoint
403	Sem acesso ao modelo	Confirme se sua conta tem acesso à prévia
404	Modelo não encontrado	Verifique se o ID do modelo existe na região usada
429	Limite de taxa ou cota excedida	Aplique retry com backoff e verifique limites da conta
500 / 503	Erro do lado do servidor	Tente novamente com backoff exponencial

Em modelos em prévia, 403 e 404 são mais frequentes porque acesso e identificadores ainda podem mudar. Se você receber esses erros, investigue primeiro permissão e model.

Exemplo de retry em Python:

import os
import time
from openai import OpenAI, RateLimitError, APIStatusError

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

def ask_qwen(prompt, max_retries=4):
    for attempt in range(max_retries):
        try:
            response = client.chat.completions.create(
                model="qwen3.7-max-preview",
                messages=[
                    {
                        "role": "user",
                        "content": prompt,
                    }
                ],
            )
            return response.choices[0].message.content

        except RateLimitError:
            wait = 2 ** attempt
            print(f"Limite de taxa atingido. Tentando novamente em {wait}s...")
            time.sleep(wait)

        except APIStatusError as e:
            print(f"Erro da API {e.status_code}: {e.message}")
            raise

    raise RuntimeError("Falha após tentativas")

Regra prática:

retry com backoff para 429 e 5xx
falha rápida para 400, 401, 403 e 404
logue o corpo do erro em ambiente de desenvolvimento
exponha mensagens seguras e genéricas para usuários finais

Testando e simulando a API do Qwen com Apidog

APIs em prévia são instáveis por natureza: acesso restrito, IDs de modelo em mudança e limites de taxa apertados. Em vez de testar apenas executando o aplicativo inteiro e lendo logs, isole o endpoint e valide cada requisição.

O Apidog ajuda nesse ciclo.

Um fluxo prático:

Crie uma requisição POST /chat/completions.
Configure a URL base do DashScope.
Adicione o header Authorization: Bearer {{DASHSCOPE_API_KEY}}.
Salve o corpo JSON com model e messages.
Execute testes manuais para validar resposta e erros.
Salve cenários reutilizáveis.
Crie uma simulação do endpoint enquanto a prévia real não está disponível.

Exemplo de corpo para salvar no Apidog:

{
  "model": "qwen3.7-max-preview",
  "messages": [
    {
      "role": "user",
      "content": "Explique cache aside em arquiteturas distribuídas."
    }
  ]
}

A simulação é especialmente útil durante a prévia. O servidor mock do Apidog pode retornar respostas realistas com base no esquema da API, sem depender da chave real, de limite de taxa ou da disponibilidade do modelo.

Assim, seu frontend, agente ou backend pode desenvolver contra um endpoint substituto. Quando a API real estiver pronta, você troca a URL base da simulação pela URL do DashScope e mantém a estrutura da requisição.

Para fluxos schema-first, veja o passo a passo do modo spec-first.

O mesmo padrão funciona para outras APIs de modelo, incluindo Qwen, Gemini e a API do ERNIE 5.1. Quanto mais instável for o endpoint real, mais valor você ganha ao testar e simular antes de integrar.

Conclusão

Chamar o Qwen 3.7 é simples quando você conhece o caminho: use o endpoint compatível com OpenAI do DashScope, configure a URL base correta, envie a chave como Bearer token e chame /chat/completions.

A parte difícil é a prévia: acesso restrito, IDs de modelo em mudança e disponibilidade variável. Por isso, confirme sempre a documentação oficial antes de lançar e mantenha seu código preparado para erros, retries e troca de modelo.

Pare de adivinhar o que o Qwen retorna e comece a testar o endpoint de forma controlada. Baixe o Apidog para projetar o endpoint do Qwen, enviar requisições reais, salvar cenários reutilizáveis e simular a API enquanto você constrói.

DEV Community