DeepSeek은 2026년 LLM 가격 경쟁에서 공격적인 임시 할인을 정식 가격으로 전환했습니다. 5월 22일 DeepSeek 팀은 2026년 5월 31일 15:59 UTC에 종료될 예정이던 DeepSeek-V4-Pro 75% 할인을 되돌리지 않겠다고 발표했습니다. 이제 V4-Pro API 가격은 입력 토큰 백만 개당 $0.435, 출력 토큰 백만 개당 $0.87, 캐시 히트 입력 토큰 백만 개당 $0.003625입니다. 이 글에서는 변경된 가격, 캐시 히트가 비용에 미치는 영향, 그리고 API 개발자가 이번 주에 바로 점검해야 할 항목을 정리합니다.
요약 (TL;DR)
- DeepSeek-V4-Pro API 가격은 기존 정식 가격의 1/4로 영구화됩니다.
- 입력 캐시 미스: $0.435 / MTok
- 출력: $0.87 / MTok
- 입력 캐시 히트: $0.003625 / MTok
- 2026년 5월 31일 종료 예정이던 75% 프로모션 할인은 정식 요금이 됩니다.
- V4-Pro는 출력 기준으로 GPT-5.5보다 약 34배 저렴하며, 대부분의 코딩 및 추론 벤치마크에서 GPT-5.5의 약 95% 수준에 도달합니다.
- 캐시 히트 가격 $0.003625 / MTok은 별도로 봐야 할 핵심 포인트입니다. 긴 시스템 프롬프트와 도구 스키마를 반복 사용하는 에이전트 구조에서 비용 차이가 큽니다.
- 지난 분기에 GPT-5.5 또는 Claude Opus 4.7 기준으로 AI 기능 원가를 계산했다면, 이번 주에 다시 계산해야 합니다.
지금 왜 중요한가
LLM 가격은 보통 천천히 내려갑니다. 하지만 DeepSeek은 5월 동안 진행한 공격적인 프로모션을 종료하지 않고 정식 가격으로 고정했습니다. 이는 단순한 할인 이벤트가 아니라, 추론 워크로드를 확보하기 위한 가격 전략으로 볼 수 있습니다.
특히 다음과 같은 핫 패스에서 LLM을 호출하는 제품이라면 영향이 큽니다.
- 자동 완성
- RAG 기반 채팅
- 코드 리뷰
- 에이전트 루프
- 도구 호출 기반 워크플로
예를 들어 하루에 출력 토큰 5천만 개를 사용하는 에이전트가 있다고 가정해 봅시다.
기존 출력 가격이 $3.48 / MTok이었다면 월 비용은 약 $5,200입니다. 새 가격인 $0.87 / MTok에서는 약 $1,300입니다. 출력 토큰이 많은 워크로드에서는 가격 인하가 곧바로 제품 마진에 반영됩니다.
DeepSeek 위에서 API를 개발한다면 Apidog를 사용해 V4-Pro API 호출을 생성, 테스트, 문서화, 모니터링할 수 있습니다. 스트리밍, 도구 호출, JSON 스키마 유효성 검사를 한 작업 공간에서 다룰 수 있어 모델 교체 테스트에도 유용합니다.
이제 변경된 가격표, 경쟁 모델과의 비교, 캐시 히트 계산법, 실제 비용 시나리오, 그리고 마이그레이션 여부를 판단하는 5단계 체크리스트를 살펴보겠습니다.
무엇이 변했나: 발표 내용 해석
DeepSeek의 공식 가격 공지는 짧지만, API 비용 계산에는 큰 영향을 줍니다.
핵심은 세 가지입니다.
75% 할인이 영구화됩니다.
2026년 5월 31일 15:59 UTC까지 적용될 예정이던 프로모션 가격이 6월 1일 이후에도 유지됩니다. 다시 기존 정식 가격으로 돌아가지 않습니다.할인은 V4-Pro에 적용됩니다.
DeepSeek-V4-Flash는 이미 $0.14 / $0.28 per MTok 수준으로 낮은 가격이었습니다. 이번 인하의 핵심은 상위 모델인 V4-Pro입니다. Flash와 Pro의 차이는 DeepSeek V4란 무엇인가를 참고하세요.캐시 히트 가격은 별도의 비용 최적화 포인트입니다.
캐시 히트 입력 가격은 2026년 4월 26일 12:15 UTC부터 출시 당시의 1/10 수준으로 내려갔습니다. 여기에 75% 가격 인하가 적용되면서 최종 캐시 히트 가격은 $0.003625 / MTok이 됩니다.
이 조합은 DeepSeek이 V4-Pro를 에이전트, 장문 컨텍스트, 반복 호출 워크로드에 적극적으로 사용하게 만들려는 신호로 볼 수 있습니다.
새로운 영구 가격표
백만 토큰당 가격입니다. 단위는 USD입니다.
| 토큰 유형 | 이전 정식 가격 | 새로운 영구 가격 | 인하율 |
|---|---|---|---|
| 입력, 캐시 미스 | $1.74 | $0.435 | 75% |
| 입력, 캐시 히트 | $0.0145 | $0.003625 | 75% |
| 출력 | $3.48 | $0.87 | 75% |
이 표에서 실무적으로 봐야 할 부분은 다음과 같습니다.
출력 토큰 가격 인하가 가장 직접적입니다.
코드 생성, 추론, 에이전트 루프에서는 출력 토큰 비중이 커지는 경우가 많습니다.캐시 히트 가격은 작아 보이지만 구조적으로 중요합니다.
입력 캐시 미스와 캐시 히트의 가격 차이는 약 120:1입니다. 시스템 프롬프트, 도구 정의, Few-shot 예시가 반복되는 구조라면 캐시 히트율을 높이는 것만으로 입력 비용을 크게 줄일 수 있습니다.이 가격은 API에 적용됩니다.
DeepSeek 웹 채팅과는 별도로 봐야 합니다.
V4 가격 계층과 Flash-vs-Pro 선택 기준은 DeepSeek V4 API 가격 책정을 참고하세요.
V4-Pro와 GPT-5.5, Claude Opus 4.7, Gemini 3.5 Flash 비교
비교해야 할 대상은 V4-Pro의 이전 가격이 아니라 다른 선도 모델입니다.
| 모델 | 입력 ($/MTok) | 출력 ($/MTok) | SWE-bench Pro |
|---|---|---|---|
| DeepSeek-V4-Pro, 신규 | $0.435 | $0.87 | 55.4% |
| GPT-5.5 | $5.00 | $30.00 | 58.6% |
| Claude Opus 4.7 | $3.00 | $15.00 | ~62% |
| Gemini 3.5 Flash | ~$1.50 | ~$9.00 | ~48% |
| DeepSeek-V4-Flash | $0.14 | $0.28 | ~42% |
출력 토큰 기준으로 DeepSeek-V4-Pro는 GPT-5.5보다 약 34배 저렴하고 Claude Opus 4.7보다 약 17배 저렴합니다.
벤치마크 측면에서는 DataCamp 비교에 따르면 V4-Pro는 대부분의 공개 코딩 및 추론 평가에서 GPT-5.5와 3~7%포인트 차이 안에 있습니다.
실무 판단은 이렇게 할 수 있습니다.
- 품질 차이가 허용되는 일반 요청은 V4-Pro로 라우팅합니다.
- 장기 계획, 어려운 수학, 복잡한 도구 호출처럼 마지막 품질 차이가 중요한 요청은 프리미엄 모델에 남깁니다.
- V4-Pro를 초안 모델로 쓰고, 고비용 모델을 비평가 또는 검증 단계에 배치하는 방식도 비용 효율적입니다.
더 자세한 비교는 코딩을 위한 DeepSeek V4 vs Claude Opus 4.5 및 GLM-5 vs DeepSeek V3 vs GPT-5: 속도, 비용 및 실제 개발자 비교를 참고하세요.
캐시 히트가 중요한 이유
대부분의 가격 비교는 출력 가격 $0.87에 집중합니다. 하지만 실제 시스템 설계에서는 입력 캐시 히트 가격 $0.003625도 중요합니다.
DeepSeek의 프롬프트 캐시는 요청의 접두사가 최근 이전 요청과 바이트 단위로 동일할 때 적중합니다. 일반적인 채팅 에이전트나 RAG 파이프라인에서는 다음 항목이 접두사에 해당합니다.
- 시스템 프롬프트
- 도구 정의
- JSON 스키마
- 역할 지침
- Few-shot 예시
이 블록은 보통 턴마다 바뀌지 않으며, 4,000~10,000 토큰까지 커질 수 있습니다.
비용 예시
다음 조건을 가정해 보겠습니다.
- 시스템 프롬프트: 6,000 토큰
- 사용자 메시지 평균: 200 입력 토큰
- 응답 평균: 800 출력 토큰
- 하루 채팅 턴: 100,000회
캐시 히트가 없으면 입력 비용은 다음과 같습니다.
100,000 × 6,200 × $0.435 / 1,000,000
= 하루 $269.70
시스템 프롬프트 토큰의 90%가 캐시 히트되면 다음과 같이 계산할 수 있습니다.
100,000 × (
200 × $0.435
+ 6,000 × (0.9 × $0.003625 + 0.1 × $0.435)
) / 1,000,000
≈ 하루 $32
입력 비용이 약 88% 줄어듭니다.
프롬프트 캐싱의 동작 방식은 프롬프트 캐싱 심층 분석을 참고하세요.
캐시 히트율을 높이는 구현 패턴
실제 에이전트에서 캐시 히트를 얻으려면 프롬프트 구조를 안정적으로 유지해야 합니다.
1. 접두사를 고정합니다
시스템 프롬프트, 도구 스키마, Few-shot 예시는 요청 시작 부분에 고정된 순서로 둡니다.
피해야 할 예:
System:
Today is {{current_date}}.
User ID is {{user_id}}.
You are a coding assistant...
권장 구조:
System:
You are a coding assistant...
Tool definitions:
...
Examples:
...
User:
Current date: {{current_date}}
User ID: {{user_id}}
Question: ...
타임스탬프, 사용자 ID, 세션 ID처럼 요청마다 바뀌는 값은 시스템 프롬프트가 아니라 사용자 메시지나 별도 컨텍스트로 이동시키는 것이 좋습니다.
2. 동적 컨텍스트 순서를 안정화합니다
RAG에서 검색 청크를 붙일 때 매번 순서가 바뀌면 접두사가 달라집니다.
가능하면 다음 중 하나를 적용하세요.
- 문서 ID 기준 정렬
- 청크 해시 기준 정렬
- 동일한 세션 또는 동일한 검색 해시를 같은 노드로 라우팅
- 검색 결과를 접두사 뒤쪽에 배치
작은 문자열 차이도 캐시 히트를 깨뜨릴 수 있습니다.
3. 워밍업 호출을 실행합니다
에이전트 시작 시 사용자 트래픽이 들어오기 전에 고정 접두사로 요청을 한 번 보내 캐시에 올립니다.
예시 흐름:
1. 서버 시작
2. 시스템 프롬프트 + 도구 스키마로 워밍업 요청
3. 이후 사용자 요청 처리
4. 동일 접두사를 유지해 캐시 히트 유도
이번 주에 해야 할 마이그레이션 체크리스트
V4-Pro로 전환할지 여부는 워크로드별로 판단해야 합니다. 다음 5단계로 점검하세요.
1. 현재 출력:입력 비율을 측정합니다
먼저 실제 프로덕션 로그에서 토큰 사용량을 봅니다.
- 출력 비중이 높음: 에이전트, 코드 생성, 콘텐츠 생성
- 입력 비중이 높음: 긴 문서 RAG, 요약, 검색 기반 QA
출력 비중이 높을수록 V4-Pro 가격 인하 효과가 큽니다. 입력 비중이 높더라도 캐시 히트율을 높이면 절감 효과가 있습니다.
2. 실제 요청 100개로 평가 세트를 만듭니다
공개 벤치마크만 보고 모델을 바꾸지 마세요.
권장 절차:
- 프로덕션 트래픽에서 대표 요청 100개 추출
- 현재 모델과 V4-Pro에 같은 프롬프트 실행
- 도구 호출 결과, JSON 구조, 최종 응답 품질 비교
- 실패 유형을 분류
많은 팀은 V4-Pro가 전체 트래픽의 70~85%에 대해 충분히 좋은 결과를 낼 수 있음을 확인하게 됩니다.
3. 라우팅 정책을 만듭니다
전체 전환보다 라우팅이 안전합니다.
예:
if request.type in ["simple_qa", "code_explanation", "draft_generation"]:
use DeepSeek-V4-Pro
elif request.requires_long_term_planning:
use premium_model
elif request.tool_call_risk == "high":
use premium_model
else:
use DeepSeek-V4-Pro
간단한 요청은 V4-Pro로 보내고, 어려운 요청은 기존 프리미엄 모델에 유지하면 품질 저하 없이 비용을 크게 줄일 수 있습니다.
4. 캐시 접두사를 고정합니다
시스템 프롬프트를 감사하세요.
다음 항목이 시스템 프롬프트에 들어가 있다면 이동을 고려해야 합니다.
- 현재 시간
- 사용자 ID
- 세션 ID
- 요청 ID
- 실험 플래그
- A/B 테스트 버전
- 매번 바뀌는 검색 결과
고정 가능한 지침만 접두사에 남기고, 동적 데이터는 뒤쪽으로 보내세요.
5. 출시 전 회귀 테스트를 설정합니다
여기서 Apidog를 사용할 수 있습니다.
권장 테스트 흐름:
- 현재 모델의 API 요청 컬렉션을 정리합니다.
- 대표 요청에 대한 황금 응답을 저장합니다.
- 같은 요청을 V4-Pro에 대해 실행합니다.
- JSON 스키마, 필수 필드, 도구 호출 형태를 검증합니다.
- 실패한 케이스만 사람이 리뷰합니다.
Apidog를 다운로드한 뒤 OpenAI 호환 컬렉션을 가져오고, 기본 URL을 다음으로 변경하면 스모크 테스트를 빠르게 구성할 수 있습니다.
https://api.deepseek.com
V4-Pro 엔드포인트 사용 예시는 DeepSeek V4 API 사용 방법을 참고하세요.
V4-Pro 가격 인하가 다른 2026년 가격 인하와 다른 점
DeepSeek만 가격을 낮춘 것은 아닙니다. 2026년 LLM 시장은 전반적으로 마진 압축 단계에 있습니다.
OpenAI O3는 올해 초 80% 인하되었습니다.
계산 방식은 O3 가격 분석을 참고하세요.Kimi K2는 DeepSeek V3 계층과 경쟁하기 위해 가격을 재조정했습니다.
자세한 내용은 Kimi K2 API 가격 책정에서 다룹니다.Anthropic Claude는 Opus 가격을 유지하면서 더 저렴한 Haiku 및 Sonnet 계층을 제공합니다.
각 계층의 위치는 전체 Claude API 비용 분석을 참고하세요.
V4-Pro의 가격 인하는 단순한 예산 모델 인하가 아니라, 선도 모델에 가까운 기능 영역을 직접 겨냥한다는 점에서 중요합니다.
비용 계산을 다시 해야 한다
DeepSeek은 가격표만 낮춘 것이 아니라, LLM 기능의 원가 기준선을 다시 설정했습니다. 출력 토큰이 $1 / MTok 미만인 선도급 모델을 사용할 수 있다면, 지난 분기에 보류했던 기능도 다시 검토할 필요가 있습니다.
이번 주에 할 일은 세 가지입니다.
- 상위 3개 LLM 워크로드의 입력/출력 토큰 비율을 측정합니다.
- 시스템 프롬프트와 도구 스키마를 고정해 캐시 히트율을 높입니다.
- Apidog로 회귀 테스트 스위트를 만들어 다음 모델 또는 가격 변경을 빠르게 평가할 수 있게 합니다.
프로모션 플래그는 사라졌지만, 할인은 사라지지 않았습니다.
Top comments (0)