O preço da API Xiaomi MiMo V2.5 caiu para uma tarifa fixa de US$ 1 por milhão de tokens de entrada e US$ 3 por milhão de tokens de saída em 27 de maio de 2026. A Xiaomi tornou a mudança permanente e removeu a antiga cobrança em camadas para prompts longos. Na prática: agora o MiMo V2.5 cobra o mesmo preço independentemente do tamanho do contexto, incluindo cargas de trabalho com até 1M de tokens.
TL;DR
- Preços permanentes do Xiaomi MiMo V2.5 a partir de 27 de maio de 2026: US$ 1,00 entrada, US$ 3,00 saída e US$ 0,20 cache por milhão de tokens, com janela de contexto de 1M tokens.
- O “até 99% de desconto” vem da camada de longo contexto. Antes, prompts acima de 256 mil tokens tinham multiplicadores agressivos.
- Clientes do Plano de Tokens receberam aumento de cota de 5x a 8x e redefinição dos créditos já usados dentro da validade.
- O corte é permanente, não promocional. O aviso oficial fala em “renovar permanentemente todo o sistema de preços do modelo”.
- Contexto de mercado: a Xiaomi foi o segundo laboratório chinês a tornar permanente um corte de preço em modelo de ponta na mesma semana, depois do DeepSeek V4-Pro.
O que mudou em 27 de maio de 2026
O aviso oficial de atualização de preços da Xiaomi lista três mudanças. Todas entraram em vigor às 00:00 no horário de Pequim em 27 de maio, equivalente a 16:00 UTC de 26 de maio.
1. Preço fixo para todas as janelas de contexto
Antes, o MiMo V2.5 usava uma tabela em camadas:
- até 32 mil tokens de entrada: preço base;
- de 32 mil a 256 mil tokens: multiplicador;
- acima de 256 mil tokens: taxa ainda maior.
Agora existe um único preço por tipo de token. Para aplicações de longo contexto, isso remove o “imposto” de contexto longo.
2. Corte permanente, não promoção
O aviso usa expressões como “Redução Permanente de Preço” e “renovar permanentemente todo o sistema de preços do modelo”. Não há data de expiração nem cláusula de reversão. Trate como novo preço de tabela.
3. Recompensas do Plano de Tokens redefinidas
Se você usa o Plano de Tokens da Xiaomi, a cota foi aumentada de 5x a 8x. Créditos já consumidos dentro da janela de validade foram reembolsados.
O ponto importante: a validade não foi estendida. O plano ganhou mais orçamento, mas não mais tempo.
A afirmação de “até 99% de desconto” se aplica principalmente à faixa de longo contexto. Para workloads que já ficavam na camada base, o corte é menor, mas ainda relevante.
Nova tabela permanente de preços
Preços por 1 milhão de tokens, em USD:
| Modelo | Entrada | Saída | Cache | Contexto |
|---|---|---|---|---|
| MiMo V2.5 Pro | US$ 1,00 | US$ 3,00 | US$ 0,20 | 1M tokens |
| MiMo V2 Flash | ~US$ 0,10 | ~US$ 0,40 | US$ 0,02 | 256K tokens |
Pontos práticos:
- O cache do V2.5 Pro custa US$ 0,20/M, ou seja, 5x mais barato que entrada sem cache.
- A janela de 1M tokens é o principal diferencial para RAG, análise de repositórios e processamento de documentos longos.
- O aviso menciona variantes V2.5 Omni e TTS, mas não detalha a tabela. Verifique separadamente na plataforma.
Para referência sobre preços anteriores, veja o guia de preços MiMo V2-Pro & Omni.
O que o MiMo V2.5 oferece além do preço menor
O anúncio de 27 de maio é sobre preço, mas o V2.5 também é uma atualização do V2-Pro lançado em abril.
As mudanças mais úteis para implementação são:
- Contexto prático mais longo: o V2.5 Pro mantém a janela de 1M tokens e melhora a recuperação na faixa de 200 mil a 800 mil tokens.
-
Melhor compatibilidade com chamada de ferramentas: o V2-Pro tinha problemas com
tool_callsparalelas e JSON malformado em streaming. O V2.5 reduz essas falhas, mas ainda vale validar schema. - Corpus de treinamento atualizado: o V2.5 foi treinado com dados até o primeiro trimestre de 2026.
Em produção, o ganho principal é simples: você pode testar fluxos que antes exigiam chunking agressivo, sumarização intermediária ou descarte de contexto.
Comparação com outros modelos
A comparação mais útil é contra outras APIs de ponta disponíveis em maio de 2026:
| Modelo | Entrada (US$/MTok) | Saída (US$/MTok) | Contexto |
|---|---|---|---|
| Xiaomi MiMo V2.5 Pro | US$ 1,00 | US$ 3,00 | 1M |
| DeepSeek V4-Pro | US$ 0,435 | US$ 0,87 | 128K |
| GPT-5.5 | US$ 5,00 | US$ 30,00 | 200K |
| Claude Opus 4.7 | US$ 3,00 | US$ 15,00 | 200K |
| Gemini 3.5 Flash | ~US$ 1,50 | ~US$ 9,00 | 1M |
Interpretação prática:
- DeepSeek V4-Pro ainda é mais barato por token. Se custo bruto é a única métrica, ele vence.
- MiMo V2.5 é mais interessante para contexto de 1M. Gemini 3.5 Flash é a outra opção de 1M na tabela, mas custa mais.
- MiMo V2.5 é 5x mais barato que GPT-5.5 na entrada e 10x mais barato na saída, com desempenho de benchmark comparável segundo a Artificial Analysis.
Para o lado DeepSeek dessa comparação, veja O Corte de Preço de 75% do DeepSeek V4-Pro Agora É Permanente.
Como recalcular seus custos
Use esta fórmula básica:
custo_entrada = tokens_entrada / 1_000_000 * 1.00
custo_saida = tokens_saida / 1_000_000 * 3.00
custo_total = custo_entrada + custo_saida
Exemplo em JavaScript:
function calcularCustoMiMo({ inputTokens, outputTokens }) {
const inputCost = (inputTokens / 1_000_000) * 1.00;
const outputCost = (outputTokens / 1_000_000) * 3.00;
return {
inputCost,
outputCost,
totalCost: inputCost + outputCost,
};
}
const custo = calcularCustoMiMo({
inputTokens: 800_000,
outputTokens: 1_000,
});
console.log(custo);
Saída aproximada:
{
"inputCost": 0.8,
"outputCost": 0.003,
"totalCost": 0.803
}
Três cargas de trabalho, três contas novas
1. RAG em PDFs corporativos longos
Cenário:
- 50.000 consultas/dia;
- 800 mil tokens de contexto por consulta;
- 1 mil tokens de resposta.
Conta aproximada:
- preço antigo estimado para longo contexto: ~US$ 60.000/mês;
- novo preço fixo: ~US$ 1.225/mês;
- economia: ~US$ 58.775/mês.
Esse é o caso em que o MiMo V2.5 mais muda a arquitetura. Em vez de quebrar documentos em vários chunks e montar contexto parcial, você pode testar enviar documentos inteiros quando fizer sentido.
2. Agente de revisão de código
Cenário:
- 5.000 pull requests/dia;
- 30 mil tokens de contexto de repositório;
- 2 mil tokens de saída por comentário.
Conta aproximada:
- GPT-5.5: ~US$ 5.250/mês;
- MiMo V2.5: ~US$ 510/mês;
- economia: ~US$ 4.740/mês.
3. Chatbot de suporte
Cenário:
- 200.000 interações/dia;
- prompt de sistema com 4 mil tokens;
- resposta média com 300 tokens.
Conta aproximada:
- Claude Opus 4.7: ~US$ 11.250/mês;
- MiMo V2.5: ~US$ 805/mês;
- economia: ~US$ 10.445/mês.
Como usar cache para reduzir custo
A entrada em cache custa US$ 0,20/M contra US$ 1,00/M sem cache.
Exemplo:
- prompt de sistema: 6.000 tokens;
- 80.000 interações/dia;
- mensagem média do usuário: 250 tokens;
- resposta média: 600 tokens.
Sem cache:
80.000 * 6.250 * 1 / 1.000.000 = US$ 500/dia em entrada
Com 60% de cache no prefixo do prompt de sistema:
80.000 * (250 * 1 + 6.000 * (0,6 * 0,20 + 0,4 * 1)) / 1.000.000
≈ US$ 271/dia
Redução aproximada: 46%.
Para aumentar acertos de cache:
- mantenha o prompt de sistema estável;
- não injete timestamps no prefixo;
- ordene contexto recuperado de forma determinística;
- separe conteúdo dinâmico do prefixo reutilizável;
- valide se mudanças pequenas no prompt não quebram o cache.
Para mais detalhes, veja Como o cache de prompts otimiza o desempenho de LLMs e reduz custos.
Quando escolher MiMo V2.5
Use MiMo V2.5 quando seu workload depende de contexto longo ou custo previsível.
Bons casos:
- RAG com documentos longos;
- agentes que analisam repositórios inteiros;
- refatoração assistida em grandes bases de código;
- análise jurídica, financeira ou técnica com documentos extensos;
- processamento em lote com prefixos repetidos.
Evite MiMo V2.5 quando:
- latência de primeiro token é o requisito principal;
- você precisa de chat interativo em tempo quase real;
- residência de dados impede uso de infraestrutura roteada pela China;
- seu fluxo depende fortemente de tool calling paralelo sem validação.
Ressalvas para produção:
- Residência de dados: chamadas passam pela infraestrutura da Xiaomi na China.
- Confiabilidade: a API de primeira parte tem histórico operacional mais curto que provedores dos EUA.
- SLA: para produção crítica, considere roteamento via OpenRouter ou outro agregador.
-
Tool calling: valide
tool_calls, argumentos e streaming antes de liberar tráfego.
Para contexto sobre o V2-Pro, veja Xiaomi Acabou de Lançar Seu Próprio Modelo de IA, E É Grátis no OpenRouter. Para a camada gratuita, veja o programa de 100 mil tokens gratuitos Xiaomi MiMo Orbit.
Testando o MiMo V2.5 com Apidog
A API é compatível com OpenAI, mas não perfeita. Antes de migrar produção, crie uma bateria de testes.
Com o Apidog, você pode apontar uma requisição de Chat Completions para:
https://platform.xiaomimimo.com/v1
E usar sua chave de API do MiMo.
Fluxo recomendado:
- Importe o schema de Chat Completions compatível com OpenAI.
- Altere a base URL para
https://platform.xiaomimimo.com/v1. - Configure headers com sua chave de API.
- Rode o mesmo conjunto de prompts usado no seu modelo atual.
- Salve respostas “golden”.
- Adicione asserções para JSON,
tool_callse campos obrigatórios. - Compare latência, custo e qualidade por cenário.
Exemplo de requisição:
curl https://platform.xiaomimimo.com/v1/chat/completions \
-H "Authorization: Bearer $MIMO_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "mimo-v2.5-pro",
"messages": [
{
"role": "system",
"content": "Você é um assistente técnico conciso."
},
{
"role": "user",
"content": "Resuma os principais riscos deste contrato."
}
]
}'
No Apidog, use os testes para:
- registrar respostas esperadas e detectar regressões de prompt;
- validar
tool_callscom JSON Schema; - comparar MiMo V2.5, GPT-5.5, Claude e DeepSeek com o mesmo lote de entrada;
- medir mudanças de custo antes de trocar o modelo em produção.
Você pode baixar o Apidog, importar o schema de Chat Completion da OpenAI, trocar a URL base e montar um ambiente de teste em poucos minutos. O mesmo fluxo é descrito em Como usar a API do DeepSeek V4.
Próximos passos
O corte do MiMo V2.5 muda a conta para workloads com mais de 200 mil tokens de contexto. Se você descartou RAG de documentos longos ou agentes de repositório por custo, vale refazer os números.
Checklist prático:
- Recalcule suas três maiores cargas por volume de tokens usando US$ 1/M entrada e US$ 3/M saída.
- Separe workloads que precisam de contexto acima de 200K tokens.
- Rode uma avaliação com pelo menos 100 amostras contra seu modelo atual.
- Teste
tool_calls, streaming e validação de JSON antes de migrar. - Configure regressão no Apidog para comparar futuros cortes de preço em horas, não semanas.
O piso de preço mudou de novo. Ajuste sua arquitetura de acordo.



Top comments (0)