Os laboratórios chineses cortaram os preços da API de LLM seis vezes no primeiro semestre de 2026, e três desses cortes foram declarados permanentes. O DeepSeek V4-Pro agora custa US$ 0,87 por milhão de tokens de saída. O Xiaomi MiMo V2.5 nivelou seu preço de contexto longo para US$ 3/MTok de saída. O Qwen3 Max da Alibaba foi lançado a US$ 3,90. O Kimi K2.6 da Moonshot mantém o piso de cache-hit em US$ 0,07. O GLM-5 da Zhipu custa US$ 3,20 de saída. Abaixo está um guia prático para comparar as cinco principais APIs de fronteira da China em maio de 2026 e escolher a melhor para sua carga de trabalho.
TL;DR
- Mais barato por token de saída: DeepSeek V4-Pro, US$ 0,87/MTok. Aproximadamente 34x abaixo do GPT-5.5.
- Mais barato com 1M de contexto: Xiaomi MiMo V2.5 Pro, US$ 3/MTok de saída, preço fixo independentemente do tamanho da entrada.
- Melhor equilíbrio preço-qualidade para produção geral: Alibaba Qwen3 Max, US$ 3,90/MTok de saída, 262K de contexto.
- Menor piso de cache-hit para prompts de sistema longos: Moonshot Kimi K2.6, US$ 0,07/MTok em cache.
- Melhor opção para raciocínio estruturado: Zhipu GLM-5, US$ 3,20/MTok de saída, 200K de contexto.
- Regra prática: use DeepSeek para custo bruto, MiMo para contexto muito longo, Kimi para prefixos em cache, Qwen para produção multilíngue e GLM para raciocínio.
Como a guerra de preços de LLM chinesa de 2026 se desenrolou
A queda começou no Q4 de 2025 e acelerou no Q2 de 2026:
- Q4 2025: DeepSeek V3.2 é lançado a US$ 0,28/MTok de entrada, superando os preços de fronteira dos EUA por uma ordem de magnitude. Kimi K2.6 segue com preços em camadas sensíveis ao contexto e cache-hit de US$ 0,07/MTok.
- Março de 2026: Xiaomi revela o MiMo V2-Pro no OpenRouter com taxas competitivas, mas baseadas em níveis.
- Abril de 2026: DeepSeek V4 é lançado com desconto promocional de 75%, previsto para expirar em 31 de maio.
- 22 de maio de 2026: DeepSeek anuncia que o desconto de 75% é permanente. O V4-Pro fica em US$ 0,435/US$ 0,87 indefinidamente. O detalhamento completo está aqui.
- 27 de maio de 2026: Xiaomi torna o preço do MiMo V2.5 permanente em US$ 1/US$ 3, eliminando o multiplicador de contexto longo. Mais sobre o corte do MiMo.
Esses cortes miram problemas diferentes:
- DeepSeek: menor custo bruto por token.
- MiMo: contexto longo sem multiplicador de preço.
- Qwen e GLM: preço intermediário com foco em capacidade.
- Kimi: agentes e codificação com alto reaproveitamento de cache.
Comparativo rápido: 5 APIs chinesas de LLM em maio de 2026
| Modelo | Entrada ($/MTok) | Saída ($/MTok) | Cache hit | Contexto | Melhor para |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | $0.435 | $0.87 | $0.003625 | 128K | Menor custo por token, codificação |
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M | RAG de documento longo, agentes de repositório |
| Alibaba Qwen3 Max | $0.78 | $3.90 | $0.156 | 262K | Produção geral equilibrada |
| Moonshot Kimi K2.6 | $0.16–$2.00 em camadas | ~$2.50 | $0.07 | 128K | Prompts de sistema longos, agentes de codificação |
| Zhipu GLM-5 | $1.00 | $3.20 | Definido pelo provedor | 200K | Raciocínio estruturado |
Ao ler a tabela, preste atenção em três pontos:
- Preço fixo simplifica produção. DeepSeek e MiMo têm tarifa fixa. Isso facilita prever custo mensal. Modelos com camadas podem surpreender quando o contexto cresce.
- Cache-hit muda a conta real. Para agentes com prompts de sistema estáveis, compare o custo de cache-hit, não apenas o preço de entrada cache-miss. Veja o guia de prompt caching.
- Contexto é um limite técnico, não só financeiro. Se sua requisição passa de 300K tokens, o MiMo V2.5 é a única opção de 1M nesse conjunto com preço fixo.
DeepSeek: menor custo por token
Modelos principais:
- V4-Pro: US$ 0,435 entrada / US$ 0,87 saída / US$ 0,003625 cache-hit / 128K contexto
- V4-Flash: US$ 0,14 entrada / US$ 0,28 saída
O DeepSeek V4-Pro define o menor preço-base entre os modelos chineses de fronteira. O corte permanente de 22 de maio colocou os tokens de saída em US$ 0,87/MTok, aproximadamente 34x abaixo do GPT-5.5 e 17x abaixo do Claude Opus 4.7. O cache-hit de US$ 0,003625/MTok é a menor taxa de primeira parte entre os grandes laboratórios. Os valores foram confirmados na página oficial de preços da DeepSeek.
Quando usar o DeepSeek V4-Pro
Use o V4-Pro quando sua aplicação tiver:
- muita saída, como geração de código, cadeias de agentes e ferramentas de conteúdo;
- prompt de sistema estável entre 5K e 10K tokens;
- orçamento agressivo e tolerância a uma pequena diferença de benchmark em relação a modelos mais caros.
Quando evitar
Evite quando:
- precisar de mais de 128K tokens de contexto;
- a aplicação exigir latência muito baixa em chat em tempo real;
- a qualidade adicional de modelos premium justificar o custo.
Exemplo de decisão
Se você gera respostas longas com prompt curto:
Entrada: 3K tokens
Saída: 8K tokens
Prioridade: custo
Escolha provável: DeepSeek V4-Pro
Para cobertura mais aprofundada:
Xiaomi MiMo: contexto de 1M mais barato
Modelos principais:
- MiMo V2.5 Pro: US$ 1,00 entrada / US$ 3,00 saída / US$ 0,20 cache / 1M contexto
- MiMo V2 Flash: ~US$ 0,10 entrada / ~US$ 0,40 saída / 256K contexto
O corte permanente de 27 de maio removeu os antigos multiplicadores para contexto longo. Agora o MiMo V2.5 cobra a mesma taxa de US$ 1/US$ 3 enviando 5K ou 950K tokens. O aviso oficial de atualização de preço classifica o corte como permanente.
Quando usar o MiMo V2.5 Pro
Use quando sua carga envolver:
- RAG de documentos longos;
- análise de repositório inteiro;
- sumarização de múltiplos documentos;
- contexto entre 300K e 1M tokens;
- processamento em lote onde previsibilidade de preço importa.
Quando evitar
Evite para:
- chat com prompt curto, onde DeepSeek é mais barato;
- fluxos críticos de latência sub-segundo;
- tarefas que cabem confortavelmente em 128K e não precisam de janela longa.
Exemplo de decisão
Entrada: 700K tokens
Saída: 4K tokens
Prioridade: caber todo o documento no contexto
Escolha provável: Xiaomi MiMo V2.5 Pro
Para cobertura mais aprofundada:
- Quanto custa usar o Xiaomi MiMo V2.5 em 2026
- Preços do MiMo V2-Pro & Omni
- Programa de tokens gratuitos Xiaomi MiMo Orbit 100T
Alibaba Qwen: o cavalo de batalha da produção
Modelo principal:
- Qwen3 Max: US$ 0,78 entrada / US$ 3,90 saída / US$ 0,156 cache / 262K contexto
O Qwen3 Max é o carro-chefe da Alibaba e um dos modelos chineses mais implantados em produção internacional. Ele não é o mais barato: custa cerca de 1,8x o DeepSeek V4-Pro na entrada e 4,5x na saída. O prêmio vem do ecossistema de ferramentas, compatibilidade com protocolos populares, hospedagem na Alibaba Cloud e janela de 262K tokens.
As taxas foram verificadas contra a ficha do Qwen3 Max do pricepertoken.
Quando usar o Qwen3 Max
Use quando você precisa de:
- produção multilíngue, especialmente com mandarim e idiomas asiáticos;
- opções empresariais de nuvem e região;
- contexto entre 200K e 262K;
- equilíbrio entre qualidade e custo sem ir para o extremo mais barato.
Quando evitar
Evite se sua carga for:
- extremamente sensível a custo;
- pesada em saída;
- aceitável em qualidade com DeepSeek.
Exemplo de decisão
Entrada: 80K tokens
Saída: 2K tokens
Idioma: múltiplos idiomas asiáticos
Prioridade: produção estável
Escolha provável: Alibaba Qwen3 Max
Para cobertura mais aprofundada:
Moonshot Kimi: especialista em agentes e codificação
Modelo principal:
- Kimi K2.6: entrada em camadas de US$ 0,16 a US$ 2,00/MTok, em bandas de 8K, 32K, 64K e 128K
- Cache-hit: US$ 0,07/MTok
- Saída: cerca de US$ 2,50/MTok na banda média
O Kimi K2.6 se destaca pelo cache-hit. A taxa de US$ 0,07/MTok é uma das menores de primeira parte entre grandes laboratórios. Isso torna o modelo forte em fluxos que reutilizam um prefixo grande: agentes de codificação, chatbots com persona estável e pipelines de recuperação com blocos fixos de contexto.
Quando usar o Kimi K2.6
Use quando você tem:
- agentes de codificação com prompt de sistema longo;
- sessões persistentes com prefixo estável;
- chamadas de ferramenta frequentes;
- muitos requests reaproveitando o mesmo contexto inicial.
Quando evitar
Evite quando:
- o prefixo muda a cada request;
- o tamanho do contexto varia muito;
- você precisa de custo altamente previsível.
As transições de nível em 32K, 64K e 128K podem fazer consultas parecidas custarem bem mais quando o contexto cresce.
Exemplo de decisão
Prompt de sistema: 20K tokens
Reutilização: centenas de chamadas
Tool calls: frequentes
Prioridade: reduzir custo de prefixo
Escolha provável: Moonshot Kimi K2.6
Para cobertura mais aprofundada:
Zhipu GLM: foco em raciocínio estruturado
Modelos principais:
- GLM-5: US$ 1,00 entrada / US$ 3,20 saída / 200K contexto
- GLM-5.1: US$ 0,98 entrada / US$ 3,08 saída / 200K contexto
As taxas foram verificadas contra a visão geral oficial de preços da Z.AI.
O GLM-5 foi lançado com aumento de preço em relação ao GLM-4.7, em sentido oposto à corrida de queda de preços. O posicionamento é claro: não ser o mais barato, mas competir em raciocínio estruturado e tarefas de cadeia de pensamento.
Quando usar o GLM-5
Use quando sua aplicação envolve:
- matemática;
- raciocínio formal;
- análise estruturada;
- workflows de múltiplos passos;
- cenários onde uma resposta errada custa muito, como análise financeira, legal ou científica.
Quando evitar
Evite quando:
- o custo bruto é a principal métrica;
- a tarefa é geração ou sumarização simples;
- modelos mais baratos já atendem ao nível de qualidade necessário.
Exemplo de decisão
Tarefa: análise financeira estruturada
Entrada: 40K tokens
Saída: 3K tokens
Prioridade: reduzir erro, não custo
Escolha provável: Zhipu GLM-5
Para cobertura mais aprofundada:
- GLM-5 vs DeepSeek V3 vs GPT-5: velocidade, custo e comparação prática para desenvolvedores
- GLM-5.1 vs Claude, GPT, Gemini, DeepSeek
Matriz prática de escolha por carga de trabalho
| Carga de trabalho | Vencedor | Por quê |
|---|---|---|
| Geração de código com muita saída | DeepSeek V4-Pro | US$ 0,87/MTok de saída |
| RAG de documento longo acima de 300K contexto | Xiaomi MiMo V2.5 Pro | 1M de contexto com preço fixo |
| Agente de codificação com prompt de sistema estável | Kimi K2.6 | Piso de cache-hit de US$ 0,07/MTok |
| Suporte ao cliente multilíngue | Alibaba Qwen3 Max | Melhor desempenho não-inglês |
| Matemática, raciocínio formal e análise estruturada | Zhipu GLM-5 | Melhor qualidade de raciocínio estruturado |
Estratégias de implementação
1. Roteie por tipo de request
Em vez de escolher um único modelo, use roteamento:
if context_tokens > 300_000:
model = "mimo-v2.5-pro"
elif task == "reasoning":
model = "glm-5"
elif stable_system_prompt and task == "coding-agent":
model = "kimi-k2.6"
elif language in ["zh", "ja", "ko"] and production_sla_required:
model = "qwen3-max"
else:
model = "deepseek-v4-pro"
Essa abordagem permite enviar 70% a 85% do tráfego para o DeepSeek e reservar modelos mais caros para casos em que eles realmente importam.
2. Separe contexto curto e longo
Se sua aplicação mistura requests curtos e longos:
- envie contextos curtos para DeepSeek;
- envie documentos longos para MiMo;
- mantenha métricas separadas de custo por rota.
O custo operacional de manter múltiplos provedores existe, mas a economia costuma compensar.
3. Padronize prefixos para aproveitar cache
Revise seus prompts de sistema:
- coloque instruções estáveis no início;
- evite alterar o prefixo com dados dinâmicos;
- separe variáveis do usuário depois do bloco estável;
- meça cache-hit por provedor.
Exemplo de estrutura:
[SYSTEM PROMPT ESTÁVEL]
- papel do agente
- regras de segurança
- formato de resposta
- ferramentas disponíveis
[CONTEXTO DINÂMICO]
- dados do usuário
- documentos recuperados
- tarefa atual
Notas sobre qualidade e benchmarks
Preço não resolve nada se o modelo falhar na tarefa. De acordo com a Artificial Analysis, os cinco modelos desta comparação ficam relativamente próximos na maioria dos benchmarks públicos, com diferenças relevantes na cauda:
- DeepSeek V4-Pro: forte em codificação e raciocínio, com pequena lacuna em tarefas de agente de longo prazo.
- MiMo V2.5 Pro: forte em recuperação de contexto longo, especialmente em janelas muito grandes.
- Qwen3 Max: melhor desempenho não-inglês e boa qualidade geral de produção.
- Kimi K2.6: forte conformidade com formato de chamada de ferramenta, especialmente chamadas paralelas.
- GLM-5: melhor qualidade de raciocínio estruturado no conjunto.
Antes de migrar, rode uma avaliação própria com pelo menos 100 amostras reais. Benchmarks públicos ajudam, mas o que importa é a diferença no seu tráfego.
Testando todos os cinco com Apidog
Uma implantação multimodelo precisa de uma suíte de testes também multimodelo. O Apidog permite testar essas APIs em um único workspace, já que todas aceitam corpos compatíveis com OpenAI Chat Completions, com pequenas diferenças por provedor.
Fluxo recomendado:
-
Crie um ambiente por provedor:
api.deepseek.complatform.xiaomimimo.com- Alibaba Cloud Model Studio
api.moonshot.cnopen.bigmodel.cn
Importe uma vez o esquema de Chat Completions da OpenAI.
Troque a URL base por ambiente.
Execute o mesmo cenário de teste nos cinco provedores.
-
Compare:
- resposta;
- latência;
- custo estimado;
- formato de
tool_calls; - erros de streaming;
- aderência ao schema JSON.
Configure validação de schema para capturar diferenças de formato entre provedores.
Baixe o Apidog, importe seus casos de teste e compare os cinco modelos em um único fluxo. O mesmo padrão aparece nos aprofundamentos por modelo:
Para onde a guerra de preços vai a seguir
O piso de preços mudou duas vezes em maio. Mais mudanças são prováveis antes do fim do Q3:
- Resposta do Qwen: a Alibaba raramente corta primeiro, mas costuma acompanhar em semanas.
- Resposta do GLM: o aumento do GLM-5 parece cada vez mais contrariano em um mercado de queda.
- Simplificação do Kimi: a precificação por camadas de contexto pode perder espaço para modelos de preço fixo.
Próximos passos
Para agir esta semana:
- Liste suas três maiores cargas de trabalho de LLM.
- Classifique cada uma por:
- tokens de entrada;
- tokens de saída;
- tamanho máximo de contexto;
- reaproveitamento de prompt;
- sensibilidade a erro.
- Mapeie cada carga para a matriz acima.
- Rode uma avaliação com amostras reais.
- Padronize prefixos para melhorar cache-hit.
- Configure uma suíte de regressão no Apidog apontando para todos os cinco provedores.
O piso de preços ainda não parou de cair. A melhor arquitetura agora é aquela que permite trocar ou rotear modelos rapidamente, sem reescrever sua aplicação.

Top comments (0)