샤오미 MiMo V2.5 API 요금은 2026년 5월 27일부터 인풋 토큰 백만 개당 1달러, 아웃풋 토큰 백만 개당 3달러로 인하되었고, 이 요율은 영구 적용됩니다. 기존 롱-컨텍스트 티어도 제거되어 256K 토큰을 넘는 프롬프트에도 별도 승수가 붙지 않습니다. 즉, 1M 컨텍스트를 사용하는 워크로드에서도 단일 요금으로 비용을 계산할 수 있습니다.
TL;DR
- 2026년 5월 27일 기준 MiMo V2.5 Pro 영구 요금: 인풋 $1.00/MTok, 아웃풋 $3.00/MTok, 캐시 $0.20/MTok, 컨텍스트 윈도우 1M 토큰.
- “최대 99% 할인”은 롱-컨텍스트 티어에서 발생합니다. 기존에는 256K 인풋 토큰을 넘으면 요금 승수가 크게 붙었습니다.
- 토큰 플랜 고객은 할당량이 5배~8배 증가했고, 유효 기간 내 사용한 크레딧은 초기화되었습니다.
- 이번 인하는 프로모션이 아니라 영구 요금 개편입니다.
- 실무 관점: 장문 문서 RAG, 저장소 전체 코드 분석, 대용량 문서 처리처럼 200K+ 컨텍스트가 필요한 워크로드의 비용 계산을 다시 해야 합니다.
2026년 5월 27일에 변경된 사항
샤오미의 공식 가격 업데이트 공지에 따르면 변경 사항은 세 가지입니다. 모두 베이징 시간 5월 27일 00:00, UTC 5월 26일 16:00부터 적용되었습니다.
1. 컨텍스트 길이와 무관한 고정 요금
기존 MiMo V2.5 요금은 계층형이었습니다.
- 최대 32K 인풋 토큰: 기본 요금
- 32K~256K: 승수 적용
- 256K 이상: 더 높은 롱-컨텍스트 요율 적용
새 요금은 토큰 유형별로 하나의 숫자만 사용합니다.
| 항목 | 요금 |
|---|---|
| 인풋 | $1.00 / 백만 토큰 |
| 아웃풋 | $3.00 / 백만 토큰 |
| 캐시 | $0.20 / 백만 토큰 |
따라서 800K 토큰짜리 문서를 그대로 넣어도 별도 롱-컨텍스트 프리미엄이 붙지 않습니다.
2. 영구 가격 인하
공지에는 “영구 가격 인하”와 “전체 모델 요금 시스템을 영구적으로 개선한다”는 표현이 사용되었습니다. 만료일이나 프로모션 종료일은 없습니다. 비용 모델링 시 새 정가로 간주하면 됩니다.
3. 토큰 플랜 보상 초기화
샤오미의 선불 할당량 시스템인 토큰 플랜 사용자는 다음 변경을 받았습니다.
- 크레딧 잔액 5배~8배 증가
- 유효 기간 내 이미 사용한 크레딧 환불
- 단, 유효 기간 자체는 연장되지 않음
“최대 99% 할인”이라는 표현은 특히 256K+ 인풋 토큰 구간에서 의미가 큽니다. 기본 티어 워크로드의 할인폭은 더 작지만, 롱-컨텍스트 워크로드에서는 비용 구조가 완전히 달라집니다.
새로운 영구 요금표
백만 토큰당 가격입니다.
| 모델 | 인풋 | 아웃풋 | 캐시 | 컨텍스트 |
|---|---|---|---|---|
| MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M 토큰 |
| MiMo V2 Flash | ~$0.10 | ~$0.40 | $0.02 | 256K 토큰 |
주의할 점은 다음과 같습니다.
- V2.5 Pro의 캐시 요율은 인풋 요율 대비 5분의 1입니다.
- 1M 컨텍스트 윈도우는 실제 설계에 큰 영향을 줍니다. 많은 미국 호스팅 최첨단 모델은 200K~400K 컨텍스트에 머뭅니다.
- 공지에는 V2.5 Omni 및 TTS 변형도 언급되지만, 항목별 가격은 별도로 확인해야 합니다.
구형 V2-Pro 가격은 MiMo V2-Pro & Omni 가격 안내를 참고하십시오.
MiMo V2.5가 가격 외에 제공하는 것
이번 발표는 가격 변경이 핵심이지만, V2.5 자체도 V2-Pro 대비 실무적으로 의미 있는 변경이 있습니다.
1. 더 긴 실용 컨텍스트
V2.5 Pro는 1M 토큰 윈도우를 유지합니다. 샤오미는 특히 많은 롱-컨텍스트 모델이 품질 저하를 보이는 200K~800K 구간에서 검색 품질을 강화했다고 설명합니다. Needle-in-haystack 정확도는 800K 토큰까지 95% 이상을 유지합니다.
2. 더 나은 툴 호출 형식 준수
V2-Pro에는 스트리밍 응답에서 병렬 툴 호출 시 잘못된 JSON이 반환되는 문제가 있었습니다. V2.5는 이를 줄였지만 완전히 제거하지는 않았습니다.
프로덕션에서는 반드시 JSON Schema 검증을 넣어야 합니다.
import Ajv from "ajv";
const ajv = new Ajv();
const toolCallSchema = {
type: "object",
required: ["id", "type", "function"],
properties: {
id: { type: "string" },
type: { const: "function" },
function: {
type: "object",
required: ["name", "arguments"],
properties: {
name: { type: "string" },
arguments: { type: "string" }
}
}
}
};
const validate = ajv.compile(toolCallSchema);
export function assertToolCall(toolCall: unknown) {
if (!validate(toolCall)) {
throw new Error(`Invalid tool_call: ${JSON.stringify(validate.errors)}`);
}
}
3. 새로워진 훈련 코퍼스
V2.5는 2026년 1분기까지의 데이터로 훈련되었습니다. 인용 및 지식 차단 시점은 V2-Pro보다 약 3개월 앞서 있습니다.
MiMo V2.5와 경쟁 모델 비교
2026년 5월 기준 API 옵션과 비교하면 다음과 같습니다.
| 모델 | 인풋 ($/MTok) | 아웃풋 ($/MTok) | 컨텍스트 |
|---|---|---|---|
| 샤오미 MiMo V2.5 Pro | $1.00 | $3.00 | 1M |
| DeepSeek V4-Pro | $0.435 | $0.87 | 128K |
| GPT-5.5 | $5.00 | $30.00 | 200K |
| Claude Opus 4.7 | $3.00 | $15.00 | 200K |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | 1M |
정리하면 다음과 같습니다.
- 토큰당 단가만 보면 DeepSeek V4-Pro가 더 저렴합니다. 인풋은 약 2.3배, 아웃풋은 약 3.5배 저렴합니다.
- 1M 컨텍스트 워크로드에서는 MiMo V2.5가 강합니다. 표에서 1M 컨텍스트를 제공하는 다른 옵션은 Gemini 3.5 Flash이며, 인풋과 아웃풋 모두 더 비쌉니다.
- Artificial Analysis에 따르면 MiMo V2.5는 GPT-5.5 대비 인풋 5배, 아웃풋 10배 저렴하면서도 유사한 벤치마크 성능을 보입니다.
DeepSeek 쪽 비교는 DeepSeek V4-Pro 75% 가격 인하 영구화를 참고하십시오.
세 가지 워크로드 비용 계산
새 요율을 적용하면 비용 추정 방식이 달라집니다.
1. 기업 PDF 장문 문서 RAG
가정:
- 일 50,000개 쿼리
- 쿼리당 800K 인풋 컨텍스트
- 응답당 1K 아웃풋 토큰
새 요율 기준 월 비용:
인풋: 50,000 × 30 × 800,000 × $1 / 1,000,000 = $1,200
아웃풋: 50,000 × 30 × 1,000 × $3 / 1,000,000 = $4.5
합계: 약 $1,205
기존 롱-컨텍스트 티어를 백만 토큰당 약 $50 유효 요율로 잡으면 월 약 $60,000 수준이었습니다.
2. 코드 리뷰 에이전트
가정:
- 일 5,000개 풀 리퀘스트
- 요청당 30K 저장소 컨텍스트
- 응답당 2K 코멘트 아웃풋
MiMo V2.5 기준:
인풋: 5,000 × 30 × 30,000 × $1 / 1,000,000 = $150
아웃풋: 5,000 × 30 × 2,000 × $3 / 1,000,000 = $900
원문 기준 새 MiMo V2.5 비용은 월 약 $510로 계산됩니다. 실제 비용은 평균 응답 길이와 캐시 사용률에 따라 달라집니다.
3. 고객 지원 챗봇
가정:
- 일 200,000회 상호작용
- 4K 토큰 시스템 프롬프트
- 300 토큰 응답
새 요율을 쓰면 고정 시스템 프롬프트를 캐시할 때 비용 절감 여지가 큽니다. 특히 동일한 프롬프트 접두사가 반복되는 고객 지원, 내부 헬프데스크, 문서 검색 챗봇에서 효과가 있습니다.
캐시 적중률을 비용 모델에 넣기
MiMo V2.5 Pro의 캐시 인풋 요율은 $0.20/MTok입니다. 캐시 미스 인풋 $1.00/MTok보다 5배 저렴합니다.
예를 들어 다음 워크로드를 가정합니다.
- 6,000 토큰 시스템 프롬프트
- 하루 80,000회 채팅
- 평균 사용자 메시지 250 인풋 토큰
- 평균 응답 600 아웃풋 토큰
캐시가 없으면 인풋 비용은 다음과 같습니다.
80,000 × 6,250 × $1 / 1,000,000 = $500 / day
시스템 프롬프트 접두사에서 60% 캐시 적중이 발생하면 다음과 같습니다.
80,000 × (
250 × $1
+ 6,000 × (0.6 × $0.20 + 0.4 × $1)
) / 1,000,000
= 약 $271 / day
캐시 효율을 높이려면 다음을 지키십시오.
- 시스템 프롬프트를 고정합니다.
- 검색된 컨텍스트의 정렬 순서를 안정적으로 유지합니다.
- 요청마다 바뀌는 타임스탬프, UUID, 세션 메타데이터를 프롬프트 접두사에 넣지 않습니다.
- 유저별 동적 값은 가능한 뒤쪽에 배치합니다.
MiMo V2.5가 적절한 경우
MiMo V2.5는 다음 워크로드에 적합합니다.
장문 문서 RAG
200K 토큰 이상을 자연스럽게 사용하는 PDF, 계약서, 연구 보고서, 내부 위키 검색에 적합합니다. 요약-청킹 파이프라인을 줄이고 전체 문서를 직접 넣는 설계를 검토할 수 있습니다.
코드베이스 에이전트
저장소 전체 컨텍스트가 필요한 코드 리뷰, 리팩토링, 마이그레이션 분석에 유리합니다. 1M 컨텍스트를 활용하면 여러 파일과 의존성을 한 번에 넣을 수 있습니다.
대용량 문서 배치 처리
같은 시스템 프롬프트를 반복 사용하는 배치 작업에서는 캐시 요율을 활용할 수 있습니다. 프롬프트 캐싱 개념은 프롬프트 캐싱이 LLM 성능을 향상시키고 비용을 절감하는 방법을 참고하십시오.
MiMo V2.5가 부적절할 수 있는 경우
지연 시간에 민감한 채팅
MiMo V2.5 Pro는 가장 빠른 첫 토큰 모델은 아닙니다. 자동 완성, 자동 제안, 1초 미만 응답이 중요한 대화형 UI라면 DeepSeek V4-Flash 또는 Gemini 3.5 Flash가 더 나은 지연 시간 프로파일을 제공할 수 있습니다.
데이터 보존 요구사항이 엄격한 경우
호출은 중국에 있는 샤오미 인프라를 통해 라우팅됩니다. DeepSeek과 마찬가지로 보안, 컴플라이언스, 데이터 위치 요구사항을 검토해야 합니다.
강한 SLA가 필요한 프로덕션
샤오미 자체 API는 미국 호스팅 최첨단 모델보다 운영 이력이 짧습니다. SLA가 중요한 경우 OpenRouter 또는 다른 애그리게이터 경유를 검토하십시오.
함수 호출 호환성이 중요한 경우
스키마 수준에서는 OpenAI 호환이지만, 스트리밍 툴 인수와 병렬 툴 호출에서 엣지 케이스가 있을 수 있습니다. 배포 전에 실제 툴 호출 케이스를 테스트해야 합니다.
V2-Pro 출시 배경은 샤오미, 자체 AI 모델 출시, OpenRouter에서 무료 제공을 참고하십시오. 무료 티어 온램프는 샤오미 MiMo Orbit 무료 100T 토큰 프로그램에서 다룹니다.
Apidog로 MiMo V2.5 테스트하기
OpenAI 호환 API라도 프로덕션 트래픽을 바로 전환하지 말고 테스트 하니스를 먼저 만들어야 합니다.
Apidog를 사용하면 MiMo API 키로 다음 엔드포인트에 Chat Completions 요청을 보낼 수 있습니다.
https://platform.xiaomimimo.com/v1
기본 테스트 절차는 다음과 같습니다.
- OpenAI Chat Completion 스키마를 가져옵니다.
- Base URL을 MiMo 엔드포인트로 변경합니다.
- Authorization 헤더에 MiMo API 키를 설정합니다.
- 기존 모델과 동일한 프롬프트 세트를 실행합니다.
- 응답 품질, JSON 형식, 툴 호출 형태를 비교합니다.
예시 요청 구조:
{
"model": "mimo-v2.5-pro",
"messages": [
{
"role": "system",
"content": "너는 코드 리뷰 어시스턴트다. 출력은 JSON으로만 작성한다."
},
{
"role": "user",
"content": "다음 PR diff를 리뷰해줘..."
}
],
"tools": [
{
"type": "function",
"function": {
"name": "create_review_comment",
"description": "코드 리뷰 코멘트를 생성한다.",
"parameters": {
"type": "object",
"required": ["file", "line", "comment"],
"properties": {
"file": { "type": "string" },
"line": { "type": "integer" },
"comment": { "type": "string" }
}
}
}
}
]
}
Apidog에서 확인할 항목은 다음과 같습니다.
- V2.5 Pro의 골든 응답을 저장하고 프롬프트 변경 시 재생합니다.
-
tool_calls형태를 JSON Schema로 검증합니다. - GPT-5.5, Claude, DeepSeek V4-Pro와 동일 입력 배치로 비교 실행합니다.
- 스트리밍 응답에서 함수 인수가 깨지지 않는지 확인합니다.
Apidog를 다운로드하고 OpenAI Chat Completion 스키마를 가져온 뒤 Base URL만 바꾸면 빠르게 테스트 환경을 만들 수 있습니다. 이는 DeepSeek V4 API 사용 방법에서 권장한 워크플로와 동일합니다.
2026년 LLM 가격 전쟁의 양상
MiMo V2.5는 일주일 사이 중국 연구소가 발표한 두 번째 영구적인 최첨단 모델 가격 인하입니다. DeepSeek은 5월 22일 V4-Pro 가격을 정가 대비 1/4 수준으로 영구화했습니다. Kimi K2는 1분기 초 가격을 낮췄고, OpenAI O3는 2월에 80% 인하했습니다.
패턴은 명확합니다.
- 중국 연구소들은 가격 경쟁을 벌이고 있습니다. 이번 인하는 프로모션이 아니라 구조적 변화입니다.
- 미국 연구소들은 기능과 번들링으로 경쟁하고 있습니다. OpenAI와 Anthropic은 플래그십 가격을 유지하면서 사고 모드, MCP 서버, 에이전트 워크플로 같은 기능을 추가하고 있습니다.
- 벤치마크 격차가 작아졌기 때문에 재평가가 필요합니다. Artificial Analysis에 따르면 MiMo V2.5는 공개 벤치마크에서 대부분의 코딩 및 추론 작업에서 GPT-5.5와 한 자릿수 퍼센트 포인트 내에 있습니다.
관련 자료:
- DeepSeek V4-Pro 영구 가격 인하
- Kimi K2 API 가격
- OpenAI O3 가격 인하
- Gemini 3.0 API 비용
- 전체 Claude API 비용 분석
- MiMo-7B-RL 벤치마크
당신의 빌드에 적용하는 방법
MiMo V2.5의 가격 인하는 단순 마케팅이 아니라 1M 컨텍스트 API 비용 구조의 재조정입니다. 장문 문서 RAG, 저장소 전체 코드 에이전트, 200K+ 컨텍스트 워크로드를 비용 때문에 미뤘다면 다시 계산해야 합니다.
실행 순서는 다음과 같습니다.
- 토큰 사용량이 큰 상위 3개 워크로드를 고릅니다.
- 인풋, 아웃풋, 캐시 적중률을 분리해 새 요율로 다시 계산합니다.
- 동일 프롬프트로 현재 모델과 MiMo V2.5 Pro를 100개 샘플 이상 비교합니다.
-
tool_calls, JSON 출력, 스트리밍 응답을 회귀 테스트에 넣습니다. - Apidog 같은 테스트 환경에서 모델 교체 비용을 줄입니다.
가격 하한선이 다시 움직였습니다. 롱-컨텍스트 설계를 다시 검토할 시점입니다.



Top comments (0)