DEV Community

Cover image for Guerra de Preços de LLMs Chineses em 2026: Comparativo de Custos das 5 Melhores APIs de Fronteira
Lucas
Lucas

Posted on • Originally published at apidog.com

Guerra de Preços de LLMs Chineses em 2026: Comparativo de Custos das 5 Melhores APIs de Fronteira

Os laboratórios chineses cortaram os preços da API de LLM seis vezes no primeiro semestre de 2026, e três desses cortes foram declarados permanentes. O DeepSeek V4-Pro agora custa US$ 0,87 por milhão de tokens de saída. O Xiaomi MiMo V2.5 nivelou seu preço de contexto longo para US$ 3/MTok de saída. O Qwen3 Max da Alibaba foi lançado a US$ 3,90. O Kimi K2.6 da Moonshot mantém o piso de cache-hit em US$ 0,07. O GLM-5 da Zhipu custa US$ 3,20 de saída. Abaixo está um guia prático para comparar as cinco principais APIs de fronteira da China em maio de 2026 e escolher a melhor para sua carga de trabalho.

Experimente o Apidog hoje

TL;DR

  • Mais barato por token de saída: DeepSeek V4-Pro, US$ 0,87/MTok. Aproximadamente 34x abaixo do GPT-5.5.
  • Mais barato com 1M de contexto: Xiaomi MiMo V2.5 Pro, US$ 3/MTok de saída, preço fixo independentemente do tamanho da entrada.
  • Melhor equilíbrio preço-qualidade para produção geral: Alibaba Qwen3 Max, US$ 3,90/MTok de saída, 262K de contexto.
  • Menor piso de cache-hit para prompts de sistema longos: Moonshot Kimi K2.6, US$ 0,07/MTok em cache.
  • Melhor opção para raciocínio estruturado: Zhipu GLM-5, US$ 3,20/MTok de saída, 200K de contexto.
  • Regra prática: use DeepSeek para custo bruto, MiMo para contexto muito longo, Kimi para prefixos em cache, Qwen para produção multilíngue e GLM para raciocínio.

Como a guerra de preços de LLM chinesa de 2026 se desenrolou

A queda começou no Q4 de 2025 e acelerou no Q2 de 2026:

  • Q4 2025: DeepSeek V3.2 é lançado a US$ 0,28/MTok de entrada, superando os preços de fronteira dos EUA por uma ordem de magnitude. Kimi K2.6 segue com preços em camadas sensíveis ao contexto e cache-hit de US$ 0,07/MTok.
  • Março de 2026: Xiaomi revela o MiMo V2-Pro no OpenRouter com taxas competitivas, mas baseadas em níveis.
  • Abril de 2026: DeepSeek V4 é lançado com desconto promocional de 75%, previsto para expirar em 31 de maio.
  • 22 de maio de 2026: DeepSeek anuncia que o desconto de 75% é permanente. O V4-Pro fica em US$ 0,435/US$ 0,87 indefinidamente. O detalhamento completo está aqui.
  • 27 de maio de 2026: Xiaomi torna o preço do MiMo V2.5 permanente em US$ 1/US$ 3, eliminando o multiplicador de contexto longo. Mais sobre o corte do MiMo.

Esses cortes miram problemas diferentes:

  • DeepSeek: menor custo bruto por token.
  • MiMo: contexto longo sem multiplicador de preço.
  • Qwen e GLM: preço intermediário com foco em capacidade.
  • Kimi: agentes e codificação com alto reaproveitamento de cache.

Comparativo rápido: 5 APIs chinesas de LLM em maio de 2026

Modelo Entrada ($/MTok) Saída ($/MTok) Cache hit Contexto Melhor para
DeepSeek V4-Pro $0.435 $0.87 $0.003625 128K Menor custo por token, codificação
Xiaomi MiMo V2.5 Pro $1.00 $3.00 $0.20 1M RAG de documento longo, agentes de repositório
Alibaba Qwen3 Max $0.78 $3.90 $0.156 262K Produção geral equilibrada
Moonshot Kimi K2.6 $0.16–$2.00 em camadas ~$2.50 $0.07 128K Prompts de sistema longos, agentes de codificação
Zhipu GLM-5 $1.00 $3.20 Definido pelo provedor 200K Raciocínio estruturado

Ao ler a tabela, preste atenção em três pontos:

  1. Preço fixo simplifica produção. DeepSeek e MiMo têm tarifa fixa. Isso facilita prever custo mensal. Modelos com camadas podem surpreender quando o contexto cresce.
  2. Cache-hit muda a conta real. Para agentes com prompts de sistema estáveis, compare o custo de cache-hit, não apenas o preço de entrada cache-miss. Veja o guia de prompt caching.
  3. Contexto é um limite técnico, não só financeiro. Se sua requisição passa de 300K tokens, o MiMo V2.5 é a única opção de 1M nesse conjunto com preço fixo.

DeepSeek: menor custo por token

Modelos principais:

  • V4-Pro: US$ 0,435 entrada / US$ 0,87 saída / US$ 0,003625 cache-hit / 128K contexto
  • V4-Flash: US$ 0,14 entrada / US$ 0,28 saída

O DeepSeek V4-Pro define o menor preço-base entre os modelos chineses de fronteira. O corte permanente de 22 de maio colocou os tokens de saída em US$ 0,87/MTok, aproximadamente 34x abaixo do GPT-5.5 e 17x abaixo do Claude Opus 4.7. O cache-hit de US$ 0,003625/MTok é a menor taxa de primeira parte entre os grandes laboratórios. Os valores foram confirmados na página oficial de preços da DeepSeek.

Quando usar o DeepSeek V4-Pro

Use o V4-Pro quando sua aplicação tiver:

  • muita saída, como geração de código, cadeias de agentes e ferramentas de conteúdo;
  • prompt de sistema estável entre 5K e 10K tokens;
  • orçamento agressivo e tolerância a uma pequena diferença de benchmark em relação a modelos mais caros.

Quando evitar

Evite quando:

  • precisar de mais de 128K tokens de contexto;
  • a aplicação exigir latência muito baixa em chat em tempo real;
  • a qualidade adicional de modelos premium justificar o custo.

Exemplo de decisão

Se você gera respostas longas com prompt curto:

Entrada: 3K tokens
Saída: 8K tokens
Prioridade: custo
Escolha provável: DeepSeek V4-Pro
Enter fullscreen mode Exit fullscreen mode

Para cobertura mais aprofundada:

Xiaomi MiMo: contexto de 1M mais barato

Modelos principais:

  • MiMo V2.5 Pro: US$ 1,00 entrada / US$ 3,00 saída / US$ 0,20 cache / 1M contexto
  • MiMo V2 Flash: ~US$ 0,10 entrada / ~US$ 0,40 saída / 256K contexto

O corte permanente de 27 de maio removeu os antigos multiplicadores para contexto longo. Agora o MiMo V2.5 cobra a mesma taxa de US$ 1/US$ 3 enviando 5K ou 950K tokens. O aviso oficial de atualização de preço classifica o corte como permanente.

Quando usar o MiMo V2.5 Pro

Use quando sua carga envolver:

  • RAG de documentos longos;
  • análise de repositório inteiro;
  • sumarização de múltiplos documentos;
  • contexto entre 300K e 1M tokens;
  • processamento em lote onde previsibilidade de preço importa.

Quando evitar

Evite para:

  • chat com prompt curto, onde DeepSeek é mais barato;
  • fluxos críticos de latência sub-segundo;
  • tarefas que cabem confortavelmente em 128K e não precisam de janela longa.

Exemplo de decisão

Entrada: 700K tokens
Saída: 4K tokens
Prioridade: caber todo o documento no contexto
Escolha provável: Xiaomi MiMo V2.5 Pro
Enter fullscreen mode Exit fullscreen mode

Para cobertura mais aprofundada:

Alibaba Qwen: o cavalo de batalha da produção

Modelo principal:

  • Qwen3 Max: US$ 0,78 entrada / US$ 3,90 saída / US$ 0,156 cache / 262K contexto

O Qwen3 Max é o carro-chefe da Alibaba e um dos modelos chineses mais implantados em produção internacional. Ele não é o mais barato: custa cerca de 1,8x o DeepSeek V4-Pro na entrada e 4,5x na saída. O prêmio vem do ecossistema de ferramentas, compatibilidade com protocolos populares, hospedagem na Alibaba Cloud e janela de 262K tokens.

As taxas foram verificadas contra a ficha do Qwen3 Max do pricepertoken.

Quando usar o Qwen3 Max

Use quando você precisa de:

  • produção multilíngue, especialmente com mandarim e idiomas asiáticos;
  • opções empresariais de nuvem e região;
  • contexto entre 200K e 262K;
  • equilíbrio entre qualidade e custo sem ir para o extremo mais barato.

Quando evitar

Evite se sua carga for:

  • extremamente sensível a custo;
  • pesada em saída;
  • aceitável em qualidade com DeepSeek.

Exemplo de decisão

Entrada: 80K tokens
Saída: 2K tokens
Idioma: múltiplos idiomas asiáticos
Prioridade: produção estável
Escolha provável: Alibaba Qwen3 Max
Enter fullscreen mode Exit fullscreen mode

Para cobertura mais aprofundada:

Moonshot Kimi: especialista em agentes e codificação

Modelo principal:

  • Kimi K2.6: entrada em camadas de US$ 0,16 a US$ 2,00/MTok, em bandas de 8K, 32K, 64K e 128K
  • Cache-hit: US$ 0,07/MTok
  • Saída: cerca de US$ 2,50/MTok na banda média

O Kimi K2.6 se destaca pelo cache-hit. A taxa de US$ 0,07/MTok é uma das menores de primeira parte entre grandes laboratórios. Isso torna o modelo forte em fluxos que reutilizam um prefixo grande: agentes de codificação, chatbots com persona estável e pipelines de recuperação com blocos fixos de contexto.

Quando usar o Kimi K2.6

Use quando você tem:

  • agentes de codificação com prompt de sistema longo;
  • sessões persistentes com prefixo estável;
  • chamadas de ferramenta frequentes;
  • muitos requests reaproveitando o mesmo contexto inicial.

Quando evitar

Evite quando:

  • o prefixo muda a cada request;
  • o tamanho do contexto varia muito;
  • você precisa de custo altamente previsível.

As transições de nível em 32K, 64K e 128K podem fazer consultas parecidas custarem bem mais quando o contexto cresce.

Exemplo de decisão

Prompt de sistema: 20K tokens
Reutilização: centenas de chamadas
Tool calls: frequentes
Prioridade: reduzir custo de prefixo
Escolha provável: Moonshot Kimi K2.6
Enter fullscreen mode Exit fullscreen mode

Para cobertura mais aprofundada:

Zhipu GLM: foco em raciocínio estruturado

Modelos principais:

  • GLM-5: US$ 1,00 entrada / US$ 3,20 saída / 200K contexto
  • GLM-5.1: US$ 0,98 entrada / US$ 3,08 saída / 200K contexto

As taxas foram verificadas contra a visão geral oficial de preços da Z.AI.

O GLM-5 foi lançado com aumento de preço em relação ao GLM-4.7, em sentido oposto à corrida de queda de preços. O posicionamento é claro: não ser o mais barato, mas competir em raciocínio estruturado e tarefas de cadeia de pensamento.

Quando usar o GLM-5

Use quando sua aplicação envolve:

  • matemática;
  • raciocínio formal;
  • análise estruturada;
  • workflows de múltiplos passos;
  • cenários onde uma resposta errada custa muito, como análise financeira, legal ou científica.

Quando evitar

Evite quando:

  • o custo bruto é a principal métrica;
  • a tarefa é geração ou sumarização simples;
  • modelos mais baratos já atendem ao nível de qualidade necessário.

Exemplo de decisão

Tarefa: análise financeira estruturada
Entrada: 40K tokens
Saída: 3K tokens
Prioridade: reduzir erro, não custo
Escolha provável: Zhipu GLM-5
Enter fullscreen mode Exit fullscreen mode

Para cobertura mais aprofundada:

Matriz prática de escolha por carga de trabalho

Carga de trabalho Vencedor Por quê
Geração de código com muita saída DeepSeek V4-Pro US$ 0,87/MTok de saída
RAG de documento longo acima de 300K contexto Xiaomi MiMo V2.5 Pro 1M de contexto com preço fixo
Agente de codificação com prompt de sistema estável Kimi K2.6 Piso de cache-hit de US$ 0,07/MTok
Suporte ao cliente multilíngue Alibaba Qwen3 Max Melhor desempenho não-inglês
Matemática, raciocínio formal e análise estruturada Zhipu GLM-5 Melhor qualidade de raciocínio estruturado

Estratégias de implementação

1. Roteie por tipo de request

Em vez de escolher um único modelo, use roteamento:

if context_tokens > 300_000:
    model = "mimo-v2.5-pro"
elif task == "reasoning":
    model = "glm-5"
elif stable_system_prompt and task == "coding-agent":
    model = "kimi-k2.6"
elif language in ["zh", "ja", "ko"] and production_sla_required:
    model = "qwen3-max"
else:
    model = "deepseek-v4-pro"
Enter fullscreen mode Exit fullscreen mode

Essa abordagem permite enviar 70% a 85% do tráfego para o DeepSeek e reservar modelos mais caros para casos em que eles realmente importam.

2. Separe contexto curto e longo

Se sua aplicação mistura requests curtos e longos:

  • envie contextos curtos para DeepSeek;
  • envie documentos longos para MiMo;
  • mantenha métricas separadas de custo por rota.

O custo operacional de manter múltiplos provedores existe, mas a economia costuma compensar.

3. Padronize prefixos para aproveitar cache

Revise seus prompts de sistema:

  • coloque instruções estáveis no início;
  • evite alterar o prefixo com dados dinâmicos;
  • separe variáveis do usuário depois do bloco estável;
  • meça cache-hit por provedor.

Exemplo de estrutura:

[SYSTEM PROMPT ESTÁVEL]
- papel do agente
- regras de segurança
- formato de resposta
- ferramentas disponíveis

[CONTEXTO DINÂMICO]
- dados do usuário
- documentos recuperados
- tarefa atual
Enter fullscreen mode Exit fullscreen mode

Notas sobre qualidade e benchmarks

Preço não resolve nada se o modelo falhar na tarefa. De acordo com a Artificial Analysis, os cinco modelos desta comparação ficam relativamente próximos na maioria dos benchmarks públicos, com diferenças relevantes na cauda:

  • DeepSeek V4-Pro: forte em codificação e raciocínio, com pequena lacuna em tarefas de agente de longo prazo.
  • MiMo V2.5 Pro: forte em recuperação de contexto longo, especialmente em janelas muito grandes.
  • Qwen3 Max: melhor desempenho não-inglês e boa qualidade geral de produção.
  • Kimi K2.6: forte conformidade com formato de chamada de ferramenta, especialmente chamadas paralelas.
  • GLM-5: melhor qualidade de raciocínio estruturado no conjunto.

Antes de migrar, rode uma avaliação própria com pelo menos 100 amostras reais. Benchmarks públicos ajudam, mas o que importa é a diferença no seu tráfego.

Testando todos os cinco com Apidog

Uma implantação multimodelo precisa de uma suíte de testes também multimodelo. O Apidog permite testar essas APIs em um único workspace, já que todas aceitam corpos compatíveis com OpenAI Chat Completions, com pequenas diferenças por provedor.

Interface do Apidog

Fluxo recomendado:

  1. Crie um ambiente por provedor:

    • api.deepseek.com
    • platform.xiaomimimo.com
    • Alibaba Cloud Model Studio
    • api.moonshot.cn
    • open.bigmodel.cn
  2. Importe uma vez o esquema de Chat Completions da OpenAI.

  3. Troque a URL base por ambiente.

  4. Execute o mesmo cenário de teste nos cinco provedores.

  5. Compare:

    • resposta;
    • latência;
    • custo estimado;
    • formato de tool_calls;
    • erros de streaming;
    • aderência ao schema JSON.
  6. Configure validação de schema para capturar diferenças de formato entre provedores.

Baixe o Apidog, importe seus casos de teste e compare os cinco modelos em um único fluxo. O mesmo padrão aparece nos aprofundamentos por modelo:

Para onde a guerra de preços vai a seguir

O piso de preços mudou duas vezes em maio. Mais mudanças são prováveis antes do fim do Q3:

  • Resposta do Qwen: a Alibaba raramente corta primeiro, mas costuma acompanhar em semanas.
  • Resposta do GLM: o aumento do GLM-5 parece cada vez mais contrariano em um mercado de queda.
  • Simplificação do Kimi: a precificação por camadas de contexto pode perder espaço para modelos de preço fixo.

Próximos passos

Para agir esta semana:

  1. Liste suas três maiores cargas de trabalho de LLM.
  2. Classifique cada uma por:
    • tokens de entrada;
    • tokens de saída;
    • tamanho máximo de contexto;
    • reaproveitamento de prompt;
    • sensibilidade a erro.
  3. Mapeie cada carga para a matriz acima.
  4. Rode uma avaliação com amostras reais.
  5. Padronize prefixos para melhorar cache-hit.
  6. Configure uma suíte de regressão no Apidog apontando para todos os cinco provedores.

O piso de preços ainda não parou de cair. A melhor arquitetura agora é aquela que permite trocar ou rotear modelos rapidamente, sem reescrever sua aplicação.

Top comments (0)