DEV Community

Cover image for Quanto Custa Usar Xiaomi MiMo V2.5 em 2026? Preços e Custos
Lucas
Lucas

Posted on • Originally published at apidog.com

Quanto Custa Usar Xiaomi MiMo V2.5 em 2026? Preços e Custos

O preço da API Xiaomi MiMo V2.5 caiu para uma tarifa fixa de US$ 1 por milhão de tokens de entrada e US$ 3 por milhão de tokens de saída em 27 de maio de 2026. A Xiaomi tornou a mudança permanente e removeu a antiga cobrança em camadas para prompts longos. Na prática: agora o MiMo V2.5 cobra o mesmo preço independentemente do tamanho do contexto, incluindo cargas de trabalho com até 1M de tokens.

Experimente o Apidog hoje

TL;DR

  • Preços permanentes do Xiaomi MiMo V2.5 a partir de 27 de maio de 2026: US$ 1,00 entrada, US$ 3,00 saída e US$ 0,20 cache por milhão de tokens, com janela de contexto de 1M tokens.
  • O “até 99% de desconto” vem da camada de longo contexto. Antes, prompts acima de 256 mil tokens tinham multiplicadores agressivos.
  • Clientes do Plano de Tokens receberam aumento de cota de 5x a 8x e redefinição dos créditos já usados dentro da validade.
  • O corte é permanente, não promocional. O aviso oficial fala em “renovar permanentemente todo o sistema de preços do modelo”.
  • Contexto de mercado: a Xiaomi foi o segundo laboratório chinês a tornar permanente um corte de preço em modelo de ponta na mesma semana, depois do DeepSeek V4-Pro.

O que mudou em 27 de maio de 2026

O aviso oficial de atualização de preços da Xiaomi lista três mudanças. Todas entraram em vigor às 00:00 no horário de Pequim em 27 de maio, equivalente a 16:00 UTC de 26 de maio.

Atualização de preços Xiaomi MiMo V2.5

1. Preço fixo para todas as janelas de contexto

Antes, o MiMo V2.5 usava uma tabela em camadas:

  • até 32 mil tokens de entrada: preço base;
  • de 32 mil a 256 mil tokens: multiplicador;
  • acima de 256 mil tokens: taxa ainda maior.

Agora existe um único preço por tipo de token. Para aplicações de longo contexto, isso remove o “imposto” de contexto longo.

2. Corte permanente, não promoção

O aviso usa expressões como “Redução Permanente de Preço” e “renovar permanentemente todo o sistema de preços do modelo”. Não há data de expiração nem cláusula de reversão. Trate como novo preço de tabela.

3. Recompensas do Plano de Tokens redefinidas

Se você usa o Plano de Tokens da Xiaomi, a cota foi aumentada de 5x a 8x. Créditos já consumidos dentro da janela de validade foram reembolsados.

O ponto importante: a validade não foi estendida. O plano ganhou mais orçamento, mas não mais tempo.

Plano de tokens Xiaomi MiMo

A afirmação de “até 99% de desconto” se aplica principalmente à faixa de longo contexto. Para workloads que já ficavam na camada base, o corte é menor, mas ainda relevante.

Nova tabela permanente de preços

Preços por 1 milhão de tokens, em USD:

Modelo Entrada Saída Cache Contexto
MiMo V2.5 Pro US$ 1,00 US$ 3,00 US$ 0,20 1M tokens
MiMo V2 Flash ~US$ 0,10 ~US$ 0,40 US$ 0,02 256K tokens

Pontos práticos:

  • O cache do V2.5 Pro custa US$ 0,20/M, ou seja, 5x mais barato que entrada sem cache.
  • A janela de 1M tokens é o principal diferencial para RAG, análise de repositórios e processamento de documentos longos.
  • O aviso menciona variantes V2.5 Omni e TTS, mas não detalha a tabela. Verifique separadamente na plataforma.

Para referência sobre preços anteriores, veja o guia de preços MiMo V2-Pro & Omni.

O que o MiMo V2.5 oferece além do preço menor

O anúncio de 27 de maio é sobre preço, mas o V2.5 também é uma atualização do V2-Pro lançado em abril.

As mudanças mais úteis para implementação são:

  • Contexto prático mais longo: o V2.5 Pro mantém a janela de 1M tokens e melhora a recuperação na faixa de 200 mil a 800 mil tokens.
  • Melhor compatibilidade com chamada de ferramentas: o V2-Pro tinha problemas com tool_calls paralelas e JSON malformado em streaming. O V2.5 reduz essas falhas, mas ainda vale validar schema.
  • Corpus de treinamento atualizado: o V2.5 foi treinado com dados até o primeiro trimestre de 2026.

Em produção, o ganho principal é simples: você pode testar fluxos que antes exigiam chunking agressivo, sumarização intermediária ou descarte de contexto.

Comparação com outros modelos

A comparação mais útil é contra outras APIs de ponta disponíveis em maio de 2026:

Modelo Entrada (US$/MTok) Saída (US$/MTok) Contexto
Xiaomi MiMo V2.5 Pro US$ 1,00 US$ 3,00 1M
DeepSeek V4-Pro US$ 0,435 US$ 0,87 128K
GPT-5.5 US$ 5,00 US$ 30,00 200K
Claude Opus 4.7 US$ 3,00 US$ 15,00 200K
Gemini 3.5 Flash ~US$ 1,50 ~US$ 9,00 1M

Interpretação prática:

  • DeepSeek V4-Pro ainda é mais barato por token. Se custo bruto é a única métrica, ele vence.
  • MiMo V2.5 é mais interessante para contexto de 1M. Gemini 3.5 Flash é a outra opção de 1M na tabela, mas custa mais.
  • MiMo V2.5 é 5x mais barato que GPT-5.5 na entrada e 10x mais barato na saída, com desempenho de benchmark comparável segundo a Artificial Analysis.

Para o lado DeepSeek dessa comparação, veja O Corte de Preço de 75% do DeepSeek V4-Pro Agora É Permanente.

Como recalcular seus custos

Use esta fórmula básica:

custo_entrada = tokens_entrada / 1_000_000 * 1.00
custo_saida   = tokens_saida   / 1_000_000 * 3.00
custo_total   = custo_entrada + custo_saida
Enter fullscreen mode Exit fullscreen mode

Exemplo em JavaScript:

function calcularCustoMiMo({ inputTokens, outputTokens }) {
  const inputCost = (inputTokens / 1_000_000) * 1.00;
  const outputCost = (outputTokens / 1_000_000) * 3.00;

  return {
    inputCost,
    outputCost,
    totalCost: inputCost + outputCost,
  };
}

const custo = calcularCustoMiMo({
  inputTokens: 800_000,
  outputTokens: 1_000,
});

console.log(custo);
Enter fullscreen mode Exit fullscreen mode

Saída aproximada:

{
  "inputCost": 0.8,
  "outputCost": 0.003,
  "totalCost": 0.803
}
Enter fullscreen mode Exit fullscreen mode

Três cargas de trabalho, três contas novas

1. RAG em PDFs corporativos longos

Cenário:

  • 50.000 consultas/dia;
  • 800 mil tokens de contexto por consulta;
  • 1 mil tokens de resposta.

Conta aproximada:

  • preço antigo estimado para longo contexto: ~US$ 60.000/mês;
  • novo preço fixo: ~US$ 1.225/mês;
  • economia: ~US$ 58.775/mês.

Esse é o caso em que o MiMo V2.5 mais muda a arquitetura. Em vez de quebrar documentos em vários chunks e montar contexto parcial, você pode testar enviar documentos inteiros quando fizer sentido.

2. Agente de revisão de código

Cenário:

  • 5.000 pull requests/dia;
  • 30 mil tokens de contexto de repositório;
  • 2 mil tokens de saída por comentário.

Conta aproximada:

  • GPT-5.5: ~US$ 5.250/mês;
  • MiMo V2.5: ~US$ 510/mês;
  • economia: ~US$ 4.740/mês.

3. Chatbot de suporte

Cenário:

  • 200.000 interações/dia;
  • prompt de sistema com 4 mil tokens;
  • resposta média com 300 tokens.

Conta aproximada:

  • Claude Opus 4.7: ~US$ 11.250/mês;
  • MiMo V2.5: ~US$ 805/mês;
  • economia: ~US$ 10.445/mês.

Como usar cache para reduzir custo

A entrada em cache custa US$ 0,20/M contra US$ 1,00/M sem cache.

Exemplo:

  • prompt de sistema: 6.000 tokens;
  • 80.000 interações/dia;
  • mensagem média do usuário: 250 tokens;
  • resposta média: 600 tokens.

Sem cache:

80.000 * 6.250 * 1 / 1.000.000 = US$ 500/dia em entrada
Enter fullscreen mode Exit fullscreen mode

Com 60% de cache no prefixo do prompt de sistema:

80.000 * (250 * 1 + 6.000 * (0,6 * 0,20 + 0,4 * 1)) / 1.000.000
≈ US$ 271/dia
Enter fullscreen mode Exit fullscreen mode

Redução aproximada: 46%.

Para aumentar acertos de cache:

  • mantenha o prompt de sistema estável;
  • não injete timestamps no prefixo;
  • ordene contexto recuperado de forma determinística;
  • separe conteúdo dinâmico do prefixo reutilizável;
  • valide se mudanças pequenas no prompt não quebram o cache.

Para mais detalhes, veja Como o cache de prompts otimiza o desempenho de LLMs e reduz custos.

Quando escolher MiMo V2.5

Use MiMo V2.5 quando seu workload depende de contexto longo ou custo previsível.

Bons casos:

  • RAG com documentos longos;
  • agentes que analisam repositórios inteiros;
  • refatoração assistida em grandes bases de código;
  • análise jurídica, financeira ou técnica com documentos extensos;
  • processamento em lote com prefixos repetidos.

Evite MiMo V2.5 quando:

  • latência de primeiro token é o requisito principal;
  • você precisa de chat interativo em tempo quase real;
  • residência de dados impede uso de infraestrutura roteada pela China;
  • seu fluxo depende fortemente de tool calling paralelo sem validação.

Ressalvas para produção:

  • Residência de dados: chamadas passam pela infraestrutura da Xiaomi na China.
  • Confiabilidade: a API de primeira parte tem histórico operacional mais curto que provedores dos EUA.
  • SLA: para produção crítica, considere roteamento via OpenRouter ou outro agregador.
  • Tool calling: valide tool_calls, argumentos e streaming antes de liberar tráfego.

Para contexto sobre o V2-Pro, veja Xiaomi Acabou de Lançar Seu Próprio Modelo de IA, E É Grátis no OpenRouter. Para a camada gratuita, veja o programa de 100 mil tokens gratuitos Xiaomi MiMo Orbit.

Testando o MiMo V2.5 com Apidog

A API é compatível com OpenAI, mas não perfeita. Antes de migrar produção, crie uma bateria de testes.

Testando MiMo V2.5 com Apidog

Com o Apidog, você pode apontar uma requisição de Chat Completions para:

https://platform.xiaomimimo.com/v1
Enter fullscreen mode Exit fullscreen mode

E usar sua chave de API do MiMo.

Fluxo recomendado:

  1. Importe o schema de Chat Completions compatível com OpenAI.
  2. Altere a base URL para https://platform.xiaomimimo.com/v1.
  3. Configure headers com sua chave de API.
  4. Rode o mesmo conjunto de prompts usado no seu modelo atual.
  5. Salve respostas “golden”.
  6. Adicione asserções para JSON, tool_calls e campos obrigatórios.
  7. Compare latência, custo e qualidade por cenário.

Exemplo de requisição:

curl https://platform.xiaomimimo.com/v1/chat/completions \
  -H "Authorization: Bearer $MIMO_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "mimo-v2.5-pro",
    "messages": [
      {
        "role": "system",
        "content": "Você é um assistente técnico conciso."
      },
      {
        "role": "user",
        "content": "Resuma os principais riscos deste contrato."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

No Apidog, use os testes para:

  • registrar respostas esperadas e detectar regressões de prompt;
  • validar tool_calls com JSON Schema;
  • comparar MiMo V2.5, GPT-5.5, Claude e DeepSeek com o mesmo lote de entrada;
  • medir mudanças de custo antes de trocar o modelo em produção.

Você pode baixar o Apidog, importar o schema de Chat Completion da OpenAI, trocar a URL base e montar um ambiente de teste em poucos minutos. O mesmo fluxo é descrito em Como usar a API do DeepSeek V4.

Próximos passos

O corte do MiMo V2.5 muda a conta para workloads com mais de 200 mil tokens de contexto. Se você descartou RAG de documentos longos ou agentes de repositório por custo, vale refazer os números.

Checklist prático:

  • Recalcule suas três maiores cargas por volume de tokens usando US$ 1/M entrada e US$ 3/M saída.
  • Separe workloads que precisam de contexto acima de 200K tokens.
  • Rode uma avaliação com pelo menos 100 amostras contra seu modelo atual.
  • Teste tool_calls, streaming e validação de JSON antes de migrar.
  • Configure regressão no Apidog para comparar futuros cortes de preço em horas, não semanas.

O piso de preço mudou de novo. Ajuste sua arquitetura de acordo.

Top comments (0)