중국 연구소들은 2026년 상반기에 LLM API 가격을 여섯 번 인하했으며, 이 중 세 번은 영구 인하로 발표되었습니다. DeepSeek V4-Pro는 출력 토큰 백만 개당 $0.87, Xiaomi MiMo V2.5는 장문 컨텍스트 계층 가격을 출력 토큰 백만 개당 $3로 고정, Alibaba Qwen3 Max는 $3.90에 출시, Moonshot Kimi K2.6은 캐시 적중 최저가 $0.07, Zhipu GLM-5는 출력 토큰 백만 개당 $3.20입니다. 아래는 2026년 5월 기준 중국 상위 5개 최첨단 LLM API의 가격, 적용 워크로드, 선택 기준입니다.
요약
- 토큰당 최저가(출력): DeepSeek V4-Pro, 백만 토큰당 $0.87. GPT-5.5보다 약 34배 저렴합니다.
- 1M 컨텍스트 최저가: Xiaomi MiMo V2.5 Pro, 출력 백만 토큰당 $3. 입력 길이와 관계없이 동일합니다.
- 일반 프로덕션용 가격-품질 균형: Alibaba Qwen3 Max, 출력 백만 토큰당 $3.90, 262K 컨텍스트.
- 긴 시스템 프롬프트 캐시 최저가: Moonshot Kimi K2.6, 캐시 토큰 백만 개당 $0.07.
- 추론 중심 워크로드: Zhipu GLM-5, 출력 백만 토큰당 $3.20, 200K 컨텍스트, 구조화된 사고의 사슬(chain-of-thought)에 강점.
- 다섯 개 연구소 모두 가격 경쟁 중입니다. DeepSeek, MiMo, Kimi는 2026년 가격 인하를 영구적인 것으로 간주합니다.
2026년 중국 LLM 가격 전쟁의 전개 방식
가격 인하는 2025년 4분기에 시작되어 2026년 2분기에 가속화되었습니다.
- 2025년 4분기: DeepSeek V3.2가 입력 백만 토큰당 $0.28에 출시되어 미국 최첨단 모델 대비 가격을 크게 낮췄습니다. Kimi K2.6은 계층별 컨텍스트 인식 가격과 업계 최저 수준인 백만 토큰당 $0.07의 캐시 적중률로 뒤따랐습니다.
- 2026년 3월: Xiaomi가 OpenRouter에서 MiMo V2-Pro를 계층 기반 요율로 공개했습니다.
- 2026년 4월: DeepSeek V4가 5월 31일 만료 예정인 75% 프로모션 할인과 함께 출시되었습니다.
- 2026년 5월 22일: DeepSeek은 75% 할인을 영구화한다고 발표했습니다. V4-Pro는 무기한 $0.435/$0.87을 유지합니다. 자세한 내용은 여기에서 확인하세요.
- 2026년 5월 27일: Xiaomi는 MiMo V2.5 가격을 $1/$3으로 영구 고정하고 장문 컨텍스트 승수를 제거했습니다. MiMo 인하에 대한 자세한 정보.
각 연구소의 가격 전략은 다릅니다.
- DeepSeek: 토큰당 원가 최소화
- MiMo: 300K~1M 장문 컨텍스트 비용 절감
- Qwen / GLM: 중간 가격대에서 기능과 품질로 경쟁
- Kimi: 캐시 적중 최저가로 에이전트 및 코딩 워크플로우 공략
한눈에 보는 2026년 5월 기준 중국 상위 5개 LLM API
| 모델 | 입력 ($/백만 토큰) | 출력 ($/백만 토큰) | 캐시 적중 | 컨텍스트 | 가장 강점 |
|---|---|---|---|---|---|
| DeepSeek V4-Pro | $0.435 | $0.87 | $0.003625 | 128K | 토큰당 최저가, 코딩 |
| Xiaomi MiMo V2.5 Pro | $1.00 | $3.00 | $0.20 | 1M | 장문 문서 RAG, 리포지토리 에이전트 |
| Alibaba Qwen3 Max | $0.78 | $3.90 | $0.156 | 262K | 생산 균형 |
| Moonshot Kimi K2.6 | $0.16–$2.00(계층별) | ~$2.50 | $0.07 | 128K | 긴 시스템 프롬프트, 코딩 에이전트 |
| Zhipu GLM-5 | $1.00 | $3.20 | 제공업체 정의 | 200K | 구조화된 추론 |
실무에서 확인해야 할 포인트는 세 가지입니다.
DeepSeek과 MiMo는 고정 요금입니다.
고정 가격은 월간 비용 예측이 쉽습니다. 계층별 가격은 긴 컨텍스트 사용량이 늘어나는 달에 비용이 급증할 수 있습니다.캐시 적중률 차이가 큽니다.
Kimi K2.6의 $0.07과 DeepSeek V4-Pro의 $0.003625는 예외적으로 낮습니다. 안정적인 시스템 프롬프트를 사용하는 에이전트라면 캐시 누락 가격이 아니라 캐시 적중 가격으로 벤치마킹해야 합니다. 메커니즘은 프롬프트 캐싱 심층 분석을 참고하십시오.컨텍스트 창은 모델 선택을 강하게 제한합니다.
MiMo V2.5만 저렴한 계층에서 1M 토큰을 제공합니다. 다음으로 큰 것은 262K의 Qwen3 Max입니다. 워크로드가 300K 토큰 이상이면 MiMo가 사실상 기본 후보입니다.
간단한 비용 추정은 아래처럼 계산할 수 있습니다.
function estimateCost({
inputTokens,
outputTokens,
cachedInputTokens = 0,
inputPerMillion,
outputPerMillion,
cachePerMillion,
}) {
const freshInputTokens = Math.max(inputTokens - cachedInputTokens, 0);
return (
(freshInputTokens / 1_000_000) * inputPerMillion +
(cachedInputTokens / 1_000_000) * cachePerMillion +
(outputTokens / 1_000_000) * outputPerMillion
);
}
// DeepSeek V4-Pro 예시
const cost = estimateCost({
inputTokens: 20_000,
cachedInputTokens: 10_000,
outputTokens: 5_000,
inputPerMillion: 0.435,
outputPerMillion: 0.87,
cachePerMillion: 0.003625,
});
console.log(cost);
DeepSeek: 토큰당 최저가
모델: V4-Pro(입력 $0.435 / 출력 $0.87 / 캐시 적중 $0.003625, 128K 컨텍스트), V4-Flash($0.14 / $0.28)
DeepSeek V4-Pro는 중국 최첨단 모델 중 가장 낮은 가격대입니다. 5월 22일 영구 가격 인하 이후 출력 토큰은 백만 개당 $0.87이 되었으며, 이는 GPT-5.5보다 약 34배, Claude Opus 4.7보다 17배 저렴합니다. 캐시 적중률은 백만 토큰당 $0.003625입니다. 이는 DeepSeek의 공식 가격 페이지에서 확인되었습니다.
V4-Pro에 적합한 경우
- 코드 생성, 에이전트 체인, 콘텐츠 도구처럼 출력 토큰 비중이 높은 워크로드
- 안정적인 5K~10K 토큰 시스템 프롬프트를 반복 사용하는 작업
- GPT-5.5 대비 벤치마크 격차 3~7점을 감수할 수 있는 비용 민감형 프로덕션
적합하지 않은 경우
- 128K 컨텍스트를 초과하는 장문 문서 워크로드
- 첫 토큰까지 600~900ms 수준의 지연 시간이 문제가 되는 실시간 채팅
더 자세한 정보:
Xiaomi MiMo: 가장 저렴한 1M 컨텍스트 옵션
모델: MiMo V2.5 Pro(입력 $1.00 / 출력 $3.00 / 캐시 $0.20, 1M 컨텍스트), MiMo V2 Flash(~$0.10 / ~$0.40, 256K 컨텍스트)
Xiaomi의 5월 27일 영구 가격 인하로 MiMo V2.5는 모든 컨텍스트 창에서 동일한 가격을 적용합니다. 이전에는 256K 입력 토큰 이상에서 장문 컨텍스트 승수가 붙었지만, 이제는 5K 토큰을 보내든 950K 토큰을 보내든 $1/$3 요율이 적용됩니다. 공식 가격 업데이트 공지는 이 인하를 “영구적”이라고 명시합니다.
V2.5 Pro에 적합한 경우
- 장문 문서 RAG
- 리포지토리 전체 코드 분석
- 다중 문서 요약
- 300K~1M 토큰 컨텍스트를 실제로 사용하는 워크로드
- 최저 단가보다 비용 예측 가능성이 중요한 대량 문서 처리
적합하지 않은 경우
- 짧은 프롬프트 채팅
- DeepSeek이 처리 가능한 컨텍스트 길이의 일반 요청
- 1초 미만 응답 예산이 필요한 지연 시간 민감형 워크로드
1M 컨텍스트 창과 경쟁력 있는 캐시 요율은 MiMo의 차별점입니다. DeepSeek이 컨텍스트를 128K 이상으로 확장하거나 Alibaba가 Qwen 가격을 균일화하기 전까지는 MiMo가 저렴한 장문 컨텍스트 영역에서 가장 명확한 선택지입니다.
더 자세한 정보:
- 2026년에 Xiaomi MiMo V2.5를 사용하는 데 드는 비용
- MiMo V2-Pro & Omni 가격 책정 및 API 사용 방법
- Xiaomi MiMo Orbit 무료 100T 토큰 프로그램
Alibaba Qwen: 프로덕션용 균형 모델
모델: Qwen3 Max(입력 $0.78 / 출력 $3.90 / 캐시 $0.156, 262K 컨텍스트). 1M 컨텍스트를 지원하는 Qwen 3.7 Max는 입력 백만 토큰당 $2.50에 초기 출시 중입니다. 요율은 pricepertoken의 Qwen3 Max 시트에서 확인되었습니다.
Qwen3 Max는 Alibaba의 주력 모델이며 국제 프로덕션에서 많이 배포된 중국 모델입니다. 최저가는 아니지만, 툴링 생태계와 262K 컨텍스트 창을 고려하면 일반적인 기업 문서 워크로드에 적합합니다.
Qwen3 Max에 적합한 경우
- 다국어 프로덕션
- 중국어 및 아시아 언어 비중이 큰 고객 지원
- Alibaba Cloud 엔터프라이즈 호스팅과 SLA가 필요한 시나리오
- 200K~262K 컨텍스트가 필요하지만 MiMo의 1M 컨텍스트까지는 필요 없는 작업
적합하지 않은 경우
- 비용에 민감한 출력 중심 워크로드
- DeepSeek 품질로 충분한 코드 생성, 콘텐츠 생성, 에이전트 체인
더 자세한 정보:
Moonshot Kimi: 코딩 에이전트와 캐시 중심 워크로드
모델: Kimi K2.6, 컨텍스트 계층별 입력 가격(8K, 32K, 64K, 128K 대역에서 백만 토큰당 $0.16~$2.00), 캐시 적중 최저가 백만 토큰당 $0.07, 중간 대역 출력 요율은 백만 토큰당 약 $2.50
Kimi K2.6은 캐시 적중률이 강점입니다. 적중 시 백만 토큰당 $0.07은 주요 연구소 자체 요금 중 매우 낮은 수준입니다. 안정적인 시스템 프롬프트를 여러 번 재사용하는 코딩 에이전트, 고객 지원 챗봇, 검색 파이프라인에서 비용 효율이 높습니다.
K2.6에 적합한 경우
- Claude Code 스타일 코딩 에이전트
- 안정적인 시스템 프롬프트와 few-shot 예제를 반복 사용하는 장기 실행 채팅 세션
- 반복적인 컨텍스트 패턴이 많은 도구 호출 워크플로우
적합하지 않은 경우
- 요청마다 접두사가 크게 바뀌는 워크로드
- 입력 길이 예측이 어려운 버스트성 트래픽
- 월간 비용을 단순하게 예측해야 하는 팀
계층별 입력 가격에서는 32K, 64K, 128K 경계가 비용에 직접 영향을 줍니다. 운영 전 실제 요청 로그에서 입력 토큰 분포를 먼저 확인해야 합니다.
더 자세한 정보:
Zhipu GLM: 구조화된 추론 워크로드
모델: GLM-5(입력 $1.00 / 출력 $3.20, 200K 컨텍스트), GLM-5.1($0.98 / $3.08, 200K 컨텍스트). 요율은 Z.AI의 공식 가격 개요에서 확인되었습니다.
Zhipu GLM-5는 GLM-4.7보다 30% 인상된 가격으로 출시되었고, 이후 GLM-5.1을 약간 할인된 가격으로 출시했습니다. 가장 저렴한 모델은 아니지만 구조화된 추론과 사고의 사슬(chain-of-thought) 작업에 초점을 둔 포지셔닝입니다.
GLM-5에 적합한 경우
- 수학, 형식 추론, 구조화된 분석
- 재무 분석, 법률 요약, 과학 추론처럼 오답 비용이 큰 워크로드
- 추론 추적이 중요한 다단계 에이전트 워크플로우
적합하지 않은 경우
- 비용에 민감한 애플리케이션
- 단순 콘텐츠 생성
- 일반 요약 작업
더 자세한 정보:
워크로드별 최저가 구매자 매트릭스
| 워크로드 | 승자 | 이유 |
|---|---|---|
| 코드 생성(출력 중심) | DeepSeek V4-Pro | 출력 백만 토큰당 $0.87 |
| 장문 문서 RAG(300K 컨텍스트 초과) | Xiaomi MiMo V2.5 Pro | 유일한 고정 가격 1M 컨텍스트 옵션 |
| 안정적인 시스템 프롬프트를 가진 코딩 에이전트 | Kimi K2.6 | 캐시 적중 최저가 백만 토큰당 $0.07 |
| 다국어 고객 지원 | Alibaba Qwen3 Max | 강력한 비영어권 성능 |
| 수학, 형식 추론, 구조화된 분석 | Zhipu GLM-5 | 높은 사고의 사슬(chain-of-thought) 품질 |
실무에서는 단일 모델보다 라우팅 전략이 더 중요합니다.
function selectModel({ inputTokens, outputHeavy, needsReasoning, stablePrefix, language }) {
if (inputTokens > 300_000) {
return "mimo-v2.5-pro";
}
if (needsReasoning) {
return "glm-5";
}
if (stablePrefix && outputHeavy === false) {
return "kimi-k2.6";
}
if (language !== "en" && language !== "ko") {
return "qwen3-max";
}
return "deepseek-v4-pro";
}
주목할 만한 운영 패턴은 세 가지입니다.
두 가지 모델 라우팅
트래픽의 70~85%를 DeepSeek V4-Pro로 보내고, 어려운 요청만 보조 모델로 라우팅합니다.장문 컨텍스트 분할
짧은 컨텍스트는 DeepSeek, 긴 컨텍스트는 MiMo로 분리합니다. 통합 청구는 복잡해지지만 비용 차이가 큽니다.캐시 접두사 통합
모델 교체와 관계없이 시스템 프롬프트를 고정하고 캐시 적중률을 높이는 것이 비용 절감에 직접적입니다.
품질 및 벤치마크 참고 사항
모델이 작업을 수행할 수 없다면 가격은 의미가 없습니다.
Artificial Analysis에 따르면, 이 비교에 포함된 다섯 모델은 대부분의 공개 벤치마크에서 5~10% 포인트 내에 모여 있습니다. 차이가 나는 영역은 다음과 같습니다.
- DeepSeek V4-Pro: 코딩(SWE-bench Pro 약 55%) 및 추론(GPQA 약 90%)에 강점. 장기 에이전트 작업에서는 GPT-5.5 대비 약간의 격차가 있습니다.
- MiMo V2.5 Pro: 장문 컨텍스트 검색(800K에서 니들 정확도 95% 이상)에 강점. 코딩은 중간 수준입니다.
- Qwen3 Max: 비영어권 성능과 일반 프로덕션 품질이 강점입니다.
- Kimi K2.6: 특히 병렬 도구 호출에서 형식 준수가 강합니다.
- GLM-5: 이 세트에서 사고의 사슬(chain-of-thought) 추론 품질이 강합니다.
프로덕션 적용 전에는 공개 벤치마크만 보지 말고 자체 샘플 평가를 실행하십시오.
권장 평가 방식:
- 실제 요청 로그에서 100개 샘플 추출
- 각 모델에 동일 프롬프트 실행
- 응답 품질, 비용, 지연 시간, JSON 유효성 검사
- 실패 케이스를 유형별로 분류
- 라우팅 규칙에 반영
Apidog로 다섯 가지 모두 테스트하기
다중 모델 프로덕션 배포에는 다중 모델 테스트 하네스가 필요합니다. Apidog는 다섯 가지 중국 API를 하나의 작업 공간에서 테스트하는 데 사용할 수 있습니다. 사소한 호환성 차이는 있지만, 다섯 API 모두 OpenAI 채팅 완료 요청 본문을 허용합니다.
구성 절차는 다음과 같습니다.
-
Apidog에서 공급업체별 환경을 생성합니다.
api.deepseek.complatform.xiaomimimo.com- Alibaba Cloud Model Studio
- Moonshot
api.moonshot.cn - Zhipu
open.bigmodel.cn
OpenAI 채팅 완료 스키마를 한 번 가져옵니다.
환경별로 기본 URL과 API 키를 분리합니다.
동일한 테스트 시나리오를 다섯 모델에 실행합니다.
응답, 점수, 지연 시간, 비용을 비교합니다.
tool_calls형식에 JSON 스키마 유효성 검사를 연결합니다.
예시 요청 본문:
{
"model": "{{model}}",
"messages": [
{
"role": "system",
"content": "You are a concise technical assistant."
},
{
"role": "user",
"content": "Summarize this API design and identify edge cases."
}
],
"temperature": 0.2
}
Apidog를 다운로드하고 테스트 케이스를 가져오면 다섯 모델 비교를 빠르게 구성할 수 있습니다. 각 모델 심층 분석에서 권장하는 것과 동일한 워크플로우입니다.
가격 전쟁은 어디로 향할 것인가
가격 최저점은 5월에 두 번 이동했습니다. 3분기가 끝나기 전에 추가 조정이 있을 가능성이 높습니다.
Qwen의 대응
Alibaba는 가격을 가장 먼저 인하하는 경우는 드물지만, 몇 주 내에 따라가는 경향이 있습니다. 7월까지 Qwen3 Max 개정 또는 Qwen 3.8 발표 가능성이 있습니다.GLM의 대응
Zhipu의 GLM-5 30% 인상은 현재 시장 흐름과 반대입니다. 구조적 인하가 포함된 GLM-5.2가 나올 가능성이 있습니다.Kimi의 구조적 단순화
계층별 컨텍스트 가격은 점점 불리해지고 있습니다. Moonshot은 MiMo의 구조에 맞춰 K2.6 가격을 균일화할 수 있습니다.
지금 할 일은 세 가지입니다.
- 위 구매자 매트릭스를 기준으로 상위 세 가지 워크로드를 감사하십시오.
- 이번 주에 마이그레이션 테스트할 워크로드 하나를 선택하십시오.
- 시스템 프롬프트를 고정해 캐시 적중률을 높이십시오.
- 다음 가격 인하를 몇 주가 아니라 몇 시간 안에 평가할 수 있도록 다섯 공급업체를 가리키는 Apidog 회귀 테스트 스위트를 연결하십시오.
가격 최저점은 아직 내려가는 중입니다. 모델을 고정하지 말고, 비용과 품질에 따라 라우팅할 수 있는 스택으로 준비하십시오.

Top comments (0)