Lucas

Posted on Jun 1 • Originally published at apidog.com

MiniMax M3 vs DeepSeek V4-pro vs Qwen 3.7: Melhor Modelo de Código Open-Weight em 2026

Durante a maior parte dos últimos dois anos, escolher “o melhor modelo de codificação” quase sempre significava escolher entre GPT, Claude ou Gemini, pagar por token e aceitar pesos fechados. Esse cenário mudou: laboratórios chineses agora lançam modelos competitivos para codificação e agentes, com pesos abertos ou APIs tão baratas que alteram o custo operacional de qualquer workflow com LLM.

Experimente o Apidog hoje

O MiniMax M3, lançado em 1º de junho de 2026, é o sinal mais claro dessa mudança. Ele é open-weight, focado em codificação e agentes, tem janela de contexto de 1.000.000 tokens e adiciona multimodalidade nativa. Ele chega junto de outros concorrentes fortes, como a família V4 da DeepSeek e o Qwen 3.7 da Alibaba. Se você quer baixo custo, pesos abertos e menos lock-in, agora existe uma lista real de opções.

Os três concorrentes

MiniMax M3

O MiniMax M3 é o recém-chegado. A MiniMax o posiciona como um modelo de codificação de fronteira com:

Janela de contexto de 1M de tokens
Multimodalidade nativa
Entrada de imagem e vídeo
Capacidade de uso de computador
Arquitetura MSA
Foco em tarefas de agente

A MiniMax afirma que os pesos abertos e o relatório técnico seriam publicados cerca de dez dias após o lançamento. A contagem de parâmetros não foi divulgada.

Leitura complementar: o que é MiniMax M3.

DeepSeek V4-Pro

O DeepSeek V4-Pro é o modelo mais forte desta lista para quem prioriza custo e raciocínio em código. Ele é um modelo de pensamento: antes da resposta final, retorna uma cadeia de raciocínio em reasoning_content.

Isso é útil em tarefas como:

Refatorações com múltiplos arquivos
Mudanças de assinatura de função
Renomeações globais
Correções que exigem entender dependências entre módulos

A DeepSeek também oferece uma variante V4-Flash, mais barata e sem modo de pensamento. O site e a API oficiais estão em deepseek.com.

Qwen 3.7

O Qwen 3.7 é o carro-chefe da Alibaba, liderado pelo Qwen3.7-Max-Preview. Ele é um modelo de raciocínio com janela de contexto de 1M de tokens, focado em agentes de longo prazo.

A ressalva principal: no lançamento em maio de 2026, o Qwen3.7-Max era proprietário e de peso fechado. A Alibaba tem histórico de abrir modelos abaixo do carro-chefe, então pesos abertos são plausíveis no futuro, mas não confirmados.

Leitura complementar: o que é Qwen 3.7. Os repositórios open source da Alibaba estão em github.com/QwenLM.

Tabela de especificações

Especificação	MiniMax M3	DeepSeek V4-Pro	Qwen3.7-Max-Preview
Fornecedor	MiniMax	DeepSeek	Alibaba / Qwen
Lançado	1º de junho de 2026	2026	Maio de 2026, preview
Pesos abertos	Sim, pesos em ~10 dias	Sim, considerando histórico R1/V3	Ainda não
Janela de contexto	1.000.000 tokens	Não declarado aqui	1.000.000 tokens
Multimodal	Sim, imagem, vídeo e uso de computador	Não, texto e raciocínio	Raciocínio focado em texto
Modo de raciocínio	Sim	Sim, `reasoning_content`	Sim, pensamento estendido
Contagem de parâmetros	Não divulgada	Não divulgada aqui	Não divulgada aqui
Arquitetura	MSA	Não declarada aqui	Não declarada aqui

Se pesos abertos são requisito obrigatório hoje, o campo já fica mais restrito. O M3 se comprometeu a publicar pesos e relatório técnico. A DeepSeek tem histórico consistente de lançamentos abertos. O Qwen3.7-Max, por enquanto, permanece fechado.

Força em codificação e agentes

Os dados ainda não são uniformes entre os três modelos. Para evitar comparação artificial, separe o que foi publicado do que ainda precisa ser testado.

MiniMax M3: benchmarks relatados pelo fornecedor

A MiniMax publicou estes números no lançamento. Trate-os como declarações do fornecedor até que terceiros reproduzam os resultados.

Benchmark, relatado pela MiniMax	MiniMax M3
SWE-Bench Pro	59,0%
Terminal-Bench 2.1	66,0%
SWE-fficiency	34,8%
KernelBench Hard	28,8%
MCP Atlas	74,2%
PostTrainBench	0,37
SVG-Bench	Reportado acima do Opus 4.7
OmniDocBench	Reportado acima do Gemini 3.1 Pro
Claw-Eval	Reportado como o mais alto em seu conjunto

SWE-Bench Pro e Terminal-Bench medem tarefas reais de engenharia de software, como resolver issues do GitHub e trabalhar via terminal. MCP Atlas mede uso de ferramentas e orquestração de agentes.

Você pode acompanhar o campo no SWE-Bench leaderboard.

DeepSeek V4-Pro: raciocínio e custo

O DeepSeek V4-Pro não publicou os mesmos benchmarks no mesmo formato, então uma comparação célula por célula seria incorreta.

O que está documentado:

Sua capacidade de codificação aparece poucos pontos atrás do GPT-5.5 em comparações de terceiros.
O custo é uma fração do preço.
O reasoning_content ajuda em tarefas com dependências entre múltiplos arquivos.

Exemplo de uso prático: ao pedir uma refatoração, solicite explicitamente que o modelo liste arquivos afetados e riscos antes de aplicar a mudança.

Analise este diff e proponha uma refatoração segura.

Requisitos:
1. Identifique todos os arquivos impactados.
2. Explique mudanças de assinatura necessárias.
3. Gere o patch em etapas.
4. Aponte riscos de regressão.

Detalhes de configuração e custo: como usar DeepSeek V4-Pro com Cursor.

Qwen 3.7: agentes de longa duração

O Qwen 3.7 obteve 57 no Artificial Analysis Intelligence Index, um composto de raciocínio, conhecimento, matemática e codificação, reportado como #1 no lançamento. Também foi relatado em torno de 1.475 Elo na LM Arena, com colocação entre os dez primeiros em codificação.

A proposta é execução autônoma sustentada: agentes que usam ferramentas por muitas etapas, com contexto longo e persistência.

Um confronto mais amplo está em Qwen 3.7 vs GPT-5.5 vs Opus 4.7.

Janela de contexto e custo de contexto longo

MiniMax M3 e Qwen3.7-Max anunciam janela de 1.000.000 tokens. O contexto do DeepSeek V4-Pro não é declarado aqui.

Um milhão de tokens equivale, aproximadamente, a 700.000 a 750.000 palavras. Isso permite colocar em uma única solicitação:

Um repositório médio
PDFs longos
Histórico extenso de conversa
Especificações técnicas completas
Logs e traces longos

Mas contexto longo não deve ser usado por padrão.

Checklist para usar contexto longo com segurança

Antes de enviar centenas de milhares de tokens, valide:

A tarefa realmente precisa do repositório inteiro?
Arquivos gerados, lockfiles e assets foram removidos?
Logs foram resumidos antes de entrar no prompt?
Há dados sensíveis no contexto?
O custo do prompt foi estimado?

Uma janela grande é um teto, não garantia de recuperação perfeita. Modelos podem perder precisão conforme o contexto enche. Além disso, cada token enviado é cobrado.

A arquitetura MSA do M3 foi apresentada pela MiniMax como voltada à eficiência em contexto longo, com uma taxa padrão até 512 mil tokens de entrada e uma taxa separada acima disso. A regra prática continua a mesma: use o contexto completo apenas quando necessário.

Mais táticas: como reduzir os custos de token do agente.

Preço e acesso

O preço é o motivo desta comparação existir. A mesma carga de trabalho que fica cara em modelos ocidentais pode custar uma fração em alguns desses modelos.

Contexto: guerra de preços chinesa de LLMs 2026.

DeepSeek V4-Pro

Taxas padrão permanentes a partir de maio de 2026:

Tipo de token	Taxa DeepSeek V4-Pro por 1M de tokens
Entrada, cache miss	US$ 0,435
Entrada, cache hit	US$ 0,003625
Saída	US$ 0,87

A saída é aproximadamente 1/34 do custo da saída do GPT-5.5. A variante V4-Flash, sem modo de pensamento, é ainda mais barata: US$ 0,14 / US$ 0,28 por milhão de tokens de entrada/saída.

Para tráfego de agente em alto volume, essa diferença de custo muda a arquitetura. Você pode se permitir mais tentativas, mais validação automática e mais testes de prompt.

MiniMax M3

O MiniMax M3 vende planos de tokens:

Plus: US$ 20
Max: US$ 50
Ultra: US$ 120

A API usa uma taxa padrão para entradas até 512 mil tokens e uma taxa separada para contexto longo acima disso. A MiniMax não publicou um valor exato por token, então não há número por token a citar aqui.

Detalhes: como usar a API MiniMax M3.

Qwen 3.7

O Qwen 3.7 é cobrado por token via Alibaba Cloud. Como o Max estava em preview, as taxas podem mudar. Verifique a documentação atual do Alibaba Cloud antes de estimar custo em produção.

Auto-hospedagem

Pesos abertos mudam o teto de custo:

MiniMax M3: caminho para auto-hospedagem quando os pesos forem publicados
DeepSeek V4-Pro: alinhado ao histórico de pesos abertos da DeepSeek
Qwen3.7-Max: sem auto-hospedagem hoje, pois o carro-chefe é fechado

Se evitar lock-in é prioridade, isso importa tanto quanto benchmark.

Qual escolher

Sua prioridade	Melhor opção	Por quê
Codificação de agente com benchmarks publicados	MiniMax M3	Publicou SWE-Bench Pro, Terminal-Bench e MCP Atlas no lançamento
Entrada multimodal	MiniMax M3	Único dos três com multimodalidade nativa
Menor custo em API de alto volume	DeepSeek V4-Pro	US$ 0,87/1M de saída, cache-hit barato e variante Flash
Refatorações difíceis com raciocínio	DeepSeek V4-Pro	`reasoning_content` ajuda a capturar dependências entre arquivos
Maior pontuação composta pública	Qwen3.7-Max	AA Intelligence Index 57, reportado como #1 no lançamento
Agentes autônomos de longa duração	Qwen3.7-Max ou MiniMax M3	Ambos focam resistência e uso de ferramentas
Auto-hospedagem / menos lock-in	MiniMax M3 ou DeepSeek V4-Pro	Caminho de pesos abertos; Qwen3.7-Max é fechado

Resumo prático:

Escolha MiniMax M3 se você quer benchmarks de agente publicados, multimodalidade e contexto de 1M.
Escolha DeepSeek V4-Pro se você quer custo baixo e raciocínio forte em código.
Escolha Qwen3.7-Max se você quer alta pontuação composta e aceita API hospedada.

Como testar os três no seu workflow

Rankings medem tarefas de outras pessoas. Para escolher um modelo para produção, execute sua própria carga.

Use o Apidog como bancada de comparação:

Crie um projeto.
Configure três ambientes:
- minimax-m3
- deepseek-v4-pro
- qwen-3-7-max
Importe o esquema de Chat Completion compatível com OpenAI usado por cada API.
Execute os mesmos prompts nos três modelos.
Compare resposta, custo, latência e aderência ao formato.

Exemplo de corpo de requisição para um endpoint compatível com Chat Completion:

{
  "model": "MODEL_NAME",
  "messages": [
    {
      "role": "system",
      "content": "Você é um assistente de engenharia de software. Responda com patches claros e explique riscos."
    },
    {
      "role": "user",
      "content": "Revise este trecho de código e proponha uma refatoração segura..."
    }
  ],
  "temperature": 0.2
}

Casos de teste recomendados

Crie um conjunto pequeno, mas realista:

1. Corrigir bug com stack trace real.
2. Refatorar função usada por múltiplos módulos.
3. Escrever testes unitários para código legado.
4. Explicar arquitetura de um diretório do repositório.
5. Gerar patch com mudança mínima.
6. Validar contrato JSON de uma API.
7. Usar tool_calls em um fluxo de agente.

No Apidog, você também pode:

Salvar respostas de referência
Reexecutar testes após mudar o prompt de sistema
Validar tool_calls com schema JSON
Validar presença de reasoning_content quando aplicável
Comparar saídas lado a lado

Baixe aqui: Baixe o Apidog.

Perguntas frequentes

Qual é o melhor modelo de codificação de peso aberto em 2026?

Para evidências de codificação de agente no lançamento, o MiniMax M3 se destaca por publicar benchmarks como SWE-Bench Pro 59,0% e Terminal-Bench 2.1 66,0%, relatados pelo fornecedor.

O DeepSeek V4-Pro é a escolha de valor: codificação forte por uma fração do custo, com saída em torno de US$ 0,87 por milhão de tokens.

O Qwen3.7-Max lidera um ranking composto, mas ainda não é open-weight.

A resposta prática: teste os três com seu próprio repositório.

Os três são realmente de peso aberto?

Não.

MiniMax M3: anunciado como open-weight, com pesos e relatório técnico previstos após o lançamento.
DeepSeek: tem histórico forte de publicar pesos abertos em famílias como R1 e V3.
Qwen3.7-Max-Preview: proprietário e fechado no lançamento.

Detalhes: o que é Qwen 3.7.

Qual tem a maior janela de contexto?

MiniMax M3 e Qwen3.7-Max anunciam 1.000.000 tokens. O contexto do DeepSeek V4-Pro não é declarado aqui.

Lembre-se: janela grande não significa recuperação perfeita, e cada token custa dinheiro.

Qual é o mais barato para executar?

Com base em taxas publicadas por token, o DeepSeek V4-Pro é o mais barato: cerca de US$ 0,87 por milhão de tokens de saída. A variante V4-Flash é ainda mais barata.

O MiniMax M3 usa planos mensais de tokens. O Qwen3.7-Max é cobrado via Alibaba Cloud.

Se você pode auto-hospedar pesos abertos, seu custo marginal passa a depender principalmente do hardware.

O MiniMax M3 é melhor que o DeepSeek V4-Pro em codificação?

Ainda não dá para afirmar de forma direta. O M3 publicou resultados de SWE-Bench Pro e Terminal-Bench. O DeepSeek não reportou as mesmas tarefas no mesmo formato.

A vantagem do M3 é evidência publicada e multimodalidade. A vantagem do DeepSeek é preço e raciocínio forte em refatorações de múltiplos arquivos.

A versão curta

Escolha MiniMax M3 se você quer benchmarks publicados de codificação de agente, contexto de 1M e multimodalidade.

Escolha DeepSeek V4-Pro se você quer custo baixo e qualidade de código com raciocínio.

Considere Qwen3.7-Max se você quer alta pontuação composta pública e aceita usar uma API hospedada, sabendo que o carro-chefe não é open-weight hoje.

Os benchmarks vão mudar, e parte dos números do M3 ainda vem do fornecedor. A melhor decisão continua sendo operacional: rode os mesmos prompts nas três APIs em um projeto Apidog, compare saídas, latência e custo, e deixe sua carga real escolher o vencedor.

DEV Community

MiniMax M3 vs DeepSeek V4-pro vs Qwen 3.7: Melhor Modelo de Código Open-Weight em 2026

Os três concorrentes

MiniMax M3

DeepSeek V4-Pro

Qwen 3.7

Tabela de especificações

Força em codificação e agentes

MiniMax M3: benchmarks relatados pelo fornecedor

DeepSeek V4-Pro: raciocínio e custo

Qwen 3.7: agentes de longa duração

Janela de contexto e custo de contexto longo

Checklist para usar contexto longo com segurança

Preço e acesso

DeepSeek V4-Pro

MiniMax M3

Qwen 3.7

Auto-hospedagem

Qual escolher

Como testar os três no seu workflow

Casos de teste recomendados

Perguntas frequentes

Qual é o melhor modelo de codificação de peso aberto em 2026?

Os três são realmente de peso aberto?

Qual tem a maior janela de contexto?

Qual é o mais barato para executar?

O MiniMax M3 é melhor que o DeepSeek V4-Pro em codificação?

A versão curta

Top comments (0)