Lucas

Posted on May 27 • Originally published at apidog.com

Quanto Custa Usar Xiaomi MiMo V2.5 em 2026? Preços e Custos

O preço da API Xiaomi MiMo V2.5 caiu para uma tarifa fixa de US$ 1 por milhão de tokens de entrada e US$ 3 por milhão de tokens de saída em 27 de maio de 2026. A Xiaomi tornou a mudança permanente e removeu a antiga cobrança em camadas para prompts longos. Na prática: agora o MiMo V2.5 cobra o mesmo preço independentemente do tamanho do contexto, incluindo cargas de trabalho com até 1M de tokens.

Experimente o Apidog hoje

TL;DR

Preços permanentes do Xiaomi MiMo V2.5 a partir de 27 de maio de 2026: US$ 1,00 entrada, US$ 3,00 saída e US$ 0,20 cache por milhão de tokens, com janela de contexto de 1M tokens.
O “até 99% de desconto” vem da camada de longo contexto. Antes, prompts acima de 256 mil tokens tinham multiplicadores agressivos.
Clientes do Plano de Tokens receberam aumento de cota de 5x a 8x e redefinição dos créditos já usados dentro da validade.
O corte é permanente, não promocional. O aviso oficial fala em “renovar permanentemente todo o sistema de preços do modelo”.
Contexto de mercado: a Xiaomi foi o segundo laboratório chinês a tornar permanente um corte de preço em modelo de ponta na mesma semana, depois do DeepSeek V4-Pro.

O que mudou em 27 de maio de 2026

O aviso oficial de atualização de preços da Xiaomi lista três mudanças. Todas entraram em vigor às 00:00 no horário de Pequim em 27 de maio, equivalente a 16:00 UTC de 26 de maio.

1. Preço fixo para todas as janelas de contexto

Antes, o MiMo V2.5 usava uma tabela em camadas:

até 32 mil tokens de entrada: preço base;
de 32 mil a 256 mil tokens: multiplicador;
acima de 256 mil tokens: taxa ainda maior.

Agora existe um único preço por tipo de token. Para aplicações de longo contexto, isso remove o “imposto” de contexto longo.

2. Corte permanente, não promoção

O aviso usa expressões como “Redução Permanente de Preço” e “renovar permanentemente todo o sistema de preços do modelo”. Não há data de expiração nem cláusula de reversão. Trate como novo preço de tabela.

3. Recompensas do Plano de Tokens redefinidas

Se você usa o Plano de Tokens da Xiaomi, a cota foi aumentada de 5x a 8x. Créditos já consumidos dentro da janela de validade foram reembolsados.

O ponto importante: a validade não foi estendida. O plano ganhou mais orçamento, mas não mais tempo.

A afirmação de “até 99% de desconto” se aplica principalmente à faixa de longo contexto. Para workloads que já ficavam na camada base, o corte é menor, mas ainda relevante.

Nova tabela permanente de preços

Preços por 1 milhão de tokens, em USD:

Modelo	Entrada	Saída	Cache	Contexto
MiMo V2.5 Pro	US$ 1,00	US$ 3,00	US$ 0,20	1M tokens
MiMo V2 Flash	~US$ 0,10	~US$ 0,40	US$ 0,02	256K tokens

Pontos práticos:

O cache do V2.5 Pro custa US$ 0,20/M, ou seja, 5x mais barato que entrada sem cache.
A janela de 1M tokens é o principal diferencial para RAG, análise de repositórios e processamento de documentos longos.
O aviso menciona variantes V2.5 Omni e TTS, mas não detalha a tabela. Verifique separadamente na plataforma.

Para referência sobre preços anteriores, veja o guia de preços MiMo V2-Pro & Omni.

O que o MiMo V2.5 oferece além do preço menor

O anúncio de 27 de maio é sobre preço, mas o V2.5 também é uma atualização do V2-Pro lançado em abril.

As mudanças mais úteis para implementação são:

Contexto prático mais longo: o V2.5 Pro mantém a janela de 1M tokens e melhora a recuperação na faixa de 200 mil a 800 mil tokens.
Melhor compatibilidade com chamada de ferramentas: o V2-Pro tinha problemas com tool_calls paralelas e JSON malformado em streaming. O V2.5 reduz essas falhas, mas ainda vale validar schema.
Corpus de treinamento atualizado: o V2.5 foi treinado com dados até o primeiro trimestre de 2026.

Em produção, o ganho principal é simples: você pode testar fluxos que antes exigiam chunking agressivo, sumarização intermediária ou descarte de contexto.

Comparação com outros modelos

A comparação mais útil é contra outras APIs de ponta disponíveis em maio de 2026:

Modelo	Entrada (US$/MTok)	Saída (US$/MTok)	Contexto
Xiaomi MiMo V2.5 Pro	US$ 1,00	US$ 3,00	1M
DeepSeek V4-Pro	US$ 0,435	US$ 0,87	128K
GPT-5.5	US$ 5,00	US$ 30,00	200K
Claude Opus 4.7	US$ 3,00	US$ 15,00	200K
Gemini 3.5 Flash	~US$ 1,50	~US$ 9,00	1M

Interpretação prática:

DeepSeek V4-Pro ainda é mais barato por token. Se custo bruto é a única métrica, ele vence.
MiMo V2.5 é mais interessante para contexto de 1M. Gemini 3.5 Flash é a outra opção de 1M na tabela, mas custa mais.
MiMo V2.5 é 5x mais barato que GPT-5.5 na entrada e 10x mais barato na saída, com desempenho de benchmark comparável segundo a Artificial Analysis.

Para o lado DeepSeek dessa comparação, veja O Corte de Preço de 75% do DeepSeek V4-Pro Agora É Permanente.

Como recalcular seus custos

Use esta fórmula básica:

custo_entrada = tokens_entrada / 1_000_000 * 1.00
custo_saida   = tokens_saida   / 1_000_000 * 3.00
custo_total   = custo_entrada + custo_saida

Exemplo em JavaScript:

function calcularCustoMiMo({ inputTokens, outputTokens }) {
  const inputCost = (inputTokens / 1_000_000) * 1.00;
  const outputCost = (outputTokens / 1_000_000) * 3.00;

  return {
    inputCost,
    outputCost,
    totalCost: inputCost + outputCost,
  };
}

const custo = calcularCustoMiMo({
  inputTokens: 800_000,
  outputTokens: 1_000,
});

console.log(custo);

Saída aproximada:

{
  "inputCost": 0.8,
  "outputCost": 0.003,
  "totalCost": 0.803
}

Três cargas de trabalho, três contas novas

1. RAG em PDFs corporativos longos

Cenário:

50.000 consultas/dia;
800 mil tokens de contexto por consulta;
1 mil tokens de resposta.

Conta aproximada:

preço antigo estimado para longo contexto: ~US$ 60.000/mês;
novo preço fixo: ~US$ 1.225/mês;
economia: ~US$ 58.775/mês.

Esse é o caso em que o MiMo V2.5 mais muda a arquitetura. Em vez de quebrar documentos em vários chunks e montar contexto parcial, você pode testar enviar documentos inteiros quando fizer sentido.

2. Agente de revisão de código

Cenário:

5.000 pull requests/dia;
30 mil tokens de contexto de repositório;
2 mil tokens de saída por comentário.

Conta aproximada:

GPT-5.5: ~US$ 5.250/mês;
MiMo V2.5: ~US$ 510/mês;
economia: ~US$ 4.740/mês.

3. Chatbot de suporte

Cenário:

200.000 interações/dia;
prompt de sistema com 4 mil tokens;
resposta média com 300 tokens.

Conta aproximada:

Claude Opus 4.7: ~US$ 11.250/mês;
MiMo V2.5: ~US$ 805/mês;
economia: ~US$ 10.445/mês.

Como usar cache para reduzir custo

A entrada em cache custa US$ 0,20/M contra US$ 1,00/M sem cache.

Exemplo:

prompt de sistema: 6.000 tokens;
80.000 interações/dia;
mensagem média do usuário: 250 tokens;
resposta média: 600 tokens.

Sem cache:

80.000 * 6.250 * 1 / 1.000.000 = US$ 500/dia em entrada

Com 60% de cache no prefixo do prompt de sistema:

80.000 * (250 * 1 + 6.000 * (0,6 * 0,20 + 0,4 * 1)) / 1.000.000
≈ US$ 271/dia

Redução aproximada: 46%.

Para aumentar acertos de cache:

mantenha o prompt de sistema estável;
não injete timestamps no prefixo;
ordene contexto recuperado de forma determinística;
separe conteúdo dinâmico do prefixo reutilizável;
valide se mudanças pequenas no prompt não quebram o cache.

Para mais detalhes, veja Como o cache de prompts otimiza o desempenho de LLMs e reduz custos.

Quando escolher MiMo V2.5

Use MiMo V2.5 quando seu workload depende de contexto longo ou custo previsível.

Bons casos:

RAG com documentos longos;
agentes que analisam repositórios inteiros;
refatoração assistida em grandes bases de código;
análise jurídica, financeira ou técnica com documentos extensos;
processamento em lote com prefixos repetidos.

Evite MiMo V2.5 quando:

latência de primeiro token é o requisito principal;
você precisa de chat interativo em tempo quase real;
residência de dados impede uso de infraestrutura roteada pela China;
seu fluxo depende fortemente de tool calling paralelo sem validação.

Ressalvas para produção:

Residência de dados: chamadas passam pela infraestrutura da Xiaomi na China.
Confiabilidade: a API de primeira parte tem histórico operacional mais curto que provedores dos EUA.
SLA: para produção crítica, considere roteamento via OpenRouter ou outro agregador.
Tool calling: valide tool_calls, argumentos e streaming antes de liberar tráfego.

Para contexto sobre o V2-Pro, veja Xiaomi Acabou de Lançar Seu Próprio Modelo de IA, E É Grátis no OpenRouter. Para a camada gratuita, veja o programa de 100 mil tokens gratuitos Xiaomi MiMo Orbit.

Testando o MiMo V2.5 com Apidog

A API é compatível com OpenAI, mas não perfeita. Antes de migrar produção, crie uma bateria de testes.

Com o Apidog, você pode apontar uma requisição de Chat Completions para:

https://platform.xiaomimimo.com/v1

E usar sua chave de API do MiMo.

Fluxo recomendado:

Importe o schema de Chat Completions compatível com OpenAI.
Altere a base URL para https://platform.xiaomimimo.com/v1.
Configure headers com sua chave de API.
Rode o mesmo conjunto de prompts usado no seu modelo atual.
Salve respostas “golden”.
Adicione asserções para JSON, tool_calls e campos obrigatórios.
Compare latência, custo e qualidade por cenário.

Exemplo de requisição:

curl https://platform.xiaomimimo.com/v1/chat/completions \
  -H "Authorization: Bearer $MIMO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2.5-pro",
    "messages": [
      {
        "role": "system",
        "content": "Você é um assistente técnico conciso."
      },
      {
        "role": "user",
        "content": "Resuma os principais riscos deste contrato."
      }
    ]
  }'

No Apidog, use os testes para:

registrar respostas esperadas e detectar regressões de prompt;
validar tool_calls com JSON Schema;
comparar MiMo V2.5, GPT-5.5, Claude e DeepSeek com o mesmo lote de entrada;
medir mudanças de custo antes de trocar o modelo em produção.

Você pode baixar o Apidog, importar o schema de Chat Completion da OpenAI, trocar a URL base e montar um ambiente de teste em poucos minutos. O mesmo fluxo é descrito em Como usar a API do DeepSeek V4.

Próximos passos

O corte do MiMo V2.5 muda a conta para workloads com mais de 200 mil tokens de contexto. Se você descartou RAG de documentos longos ou agentes de repositório por custo, vale refazer os números.

Checklist prático:

Recalcule suas três maiores cargas por volume de tokens usando US$ 1/M entrada e US$ 3/M saída.
Separe workloads que precisam de contexto acima de 200K tokens.
Rode uma avaliação com pelo menos 100 amostras contra seu modelo atual.
Teste tool_calls, streaming e validação de JSON antes de migrar.
Configure regressão no Apidog para comparar futuros cortes de preço em horas, não semanas.

O piso de preço mudou de novo. Ajuste sua arquitetura de acordo.

DEV Community

Quanto Custa Usar Xiaomi MiMo V2.5 em 2026? Preços e Custos

TL;DR

O que mudou em 27 de maio de 2026

1. Preço fixo para todas as janelas de contexto

2. Corte permanente, não promoção

3. Recompensas do Plano de Tokens redefinidas

Nova tabela permanente de preços

O que o MiMo V2.5 oferece além do preço menor

Comparação com outros modelos

Como recalcular seus custos

Três cargas de trabalho, três contas novas

1. RAG em PDFs corporativos longos

2. Agente de revisão de código

3. Chatbot de suporte

Como usar cache para reduzir custo

Quando escolher MiMo V2.5

Testando o MiMo V2.5 com Apidog

Próximos passos

Top comments (0)