DeepSeek은 2026년 4월 23일 V4 모델 가격을 공개하면서, 선도적 AI 모델 시장의 새로운 가격 기준을 제시했습니다. V4-Flash는 백만 입력 토큰당 $0.14, 출력 토큰당 $0.28로, V4-Pro는 입력 백만 토큰당 $1.74, 출력 백만 토큰당 $3.48로 책정되었습니다. 두 모델 모두 1M 입력 토큰, 최대 384K 출력 토큰 컨텍스트 창을 지원하며, 반복 프롬프트에 대해 입력 비용을 최대 90%까지 절감하는 캐시 적중 할인을 제공합니다.
이 글에서는 전체 DeepSeek V4 요금표, 컨텍스트 캐싱이 호출당 실제 비용에 미치는 영향, GPT-5.5 및 Claude Opus와의 실제 비교, 그리고 Apidog에서 개발자가 비용 예측을 쉽게 할 수 있는 네 가지 실전 방법을 다룹니다.
제품 개요는 DeepSeek V4란 무엇인가를, 개발자 가이드는 DeepSeek V4 API 사용 방법를 참고하세요. 무료 사용법은 DeepSeek V4를 무료로 사용하는 방법을 확인할 수 있습니다.
요약 (TL;DR)
- V4-Flash: 입력 백만 토큰당 $0.14 (캐시 미스), $0.028 (캐시 적중), 출력 백만 토큰당 $0.28
- V4-Pro: 입력 백만 토큰당 $1.74 (캐시 미스), $0.145 (캐시 적중), 출력 백만 토큰당 $3.48
- 컨텍스트 창: 두 모델 모두 1M 토큰 입력, 384K 토큰 출력
- 캐시 적중 할인: 반복 접두사에 대해 Flash는 약 80% 할인, Pro는 92% 할인
-
deepseek-chat,deepseek-reasoner는 2026년 7월 24일 사용 중단 및 V4-Flash 요율로 매핑 - 캐시 미스 기준 V4-Pro는 입력에서 GPT-5.5보다 2.9배, 출력에서 8.6배 저렴
전체 요금표
| 모델 | 입력 (캐시 미스) | 입력 (캐시 적중) | 출력 | 컨텍스트 |
|---|---|---|---|---|
deepseek-v4-flash |
$0.14 / M | $0.028 / M | $0.28 / M | 1M / 384K |
deepseek-v4-pro |
$1.74 / M | $0.145 / M | $3.48 / M | 1M / 384K |
deepseek-chat (2026-07-24 사용 중단) |
V4-Flash 비-사고 모드에 매핑 | — | — | — |
deepseek-reasoner (2026-07-24 사용 중단) |
V4-Flash 사고 모드에 매핑 | — | — | — |
실제 사용 시 주의할 세부사항:
- 사고(thinking) 및 비사고(non-thinking) 모드 모두 동일한 가격이 적용됩니다. 단, 추론 모드에 따라 토큰 소모량이 달라집니다.
- 캐시 적중 할인은 자동 적용됩니다. 동일한 계정 내에서 1,024 토큰 이상 반복되는 접두사를 사용하는 모든 요청에 할인 적용(설정 필요 없음).
- 기존
deepseek-chat및deepseek-reasoner는 V4-Flash로 청구됩니다. 2026년 7월 24일까지 마이그레이션 필요.
컨텍스트 캐싱을 쉽게 설명
캐싱은 DeepSeek V4의 핵심 비용 절감 수단입니다. 긴 시스템 프롬프트, 에이전트 도구 스키마, RAG 컨텍스트 등 반복되는 입력은 두 번째 호출부터 입력 요율의 일부만 과금됩니다.
예시
- 20,000 토큰 시스템 프롬프트 + 200 토큰 사용자 질문 100회 호출
-
캐싱 미적용:
- 입력: 100 × 20,200 × $1.74 / M = $3.52
- 출력: 100 × 500 × $3.48 / M = $0.17
- 합계: $3.69
-
캐싱 적용:
- 첫 입력: 20,200 × $1.74 / M = $0.035
- 99회 캐시 적중 접두사: 99 × 20,000 × $0.145 / M = $0.287
- 99회 캐시 미스 사용자 질문: 99 × 200 × $1.74 / M = $0.034
- 출력: 100 × 500 × $3.48 / M = $0.174
- 합계: $0.53
동일 워크로드에서 약 7배 절감. V4-Flash는 더 극적인 효과를 보입니다.
GPT-5.5 및 Claude와의 비교
| 모델 | 입력 (표준) | 입력 (캐시됨) | 출력 | 컨텍스트 |
|---|---|---|---|---|
| DeepSeek V4-Flash | $0.14 / M | $0.028 / M | $0.28 / M | 1M |
| DeepSeek V4-Pro | $1.74 / M | $0.145 / M | $3.48 / M | 1M |
| GPT-5.5 | $5 / M | $1.25 / M | $30 / M | 1M |
| GPT-5.5 Pro | $30 / M | — | $180 / M | 1M |
| Claude Opus 4.6 | $15 / M | $1.50 / M | $75 / M | 200K |
- 출력 토큰 기준: V4-Pro는 GPT-5.5보다 8.6배, Claude Opus 4.6보다 21배 저렴
- 캐시된 입력 기준: V4-Pro는 GPT-5.5/Claude 대비 약 10배 저렴
- 성능 대비: V4-Pro는 LiveCodeBench, Codeforces 등에서 GPT-5.5와 동급/상회
참고: Claude는 긴 컨텍스트 검색에서는 여전히 강점을 가지고 있으니, 워크로드 특성에 따라 품질/비용을 비교하세요.
일반적인 워크로드별 비용 모델링
아래는 V4-Pro 기준(캐시 미스) 실제 비용 예시입니다.
1. 에이전트형 코딩 루프 (50K 컨텍스트, 2K 출력, 20회 호출)
- 입력: 50,000 × 20 × $1.74 / M = $1.74
- 출력: 2,000 × 20 × $3.48 / M = $0.14
- 작업당 약 $1.88 (GPT-5.5는 약 $6.20)
2. 긴 문서 Q&A (500K 컨텍스트, 1K 출력)
- 입력: 500,000 × $1.74 / M = $0.87
- 출력: 1,000 × $3.48 / M = $0.003
- 호출당 약 $0.87 (GPT-5.5는 약 $2.53)
3. 대량 분류 (2K 컨텍스트, 200 출력, 10,000회 호출)
이 경우 V4-Flash 사용 권장
- 입력: 2,000 × 10,000 × $0.14 / M = $2.80
- 출력: 200 × 10,000 × $0.28 / M = $0.56
- 약 $3.36 (GPT-5.5는 약 $110)
4. 반복 프롬프트 챗봇 (10K 시스템 프롬프트, 500 사용자 토큰, 1K 출력, 1,000 세션)
- 첫 호출 입력: 10,500 × $1.74 / M = $0.018
- 캐시 적중 입력: 999 × 10,000 × $0.145 / M = $1.45
- 캐시 미스 사용자 질문: 999 × 500 × $1.74 / M = $0.87
- 출력: 1,000 × 1,000 × $3.48 / M = $3.48
- 세션당 약 $5.82 (GPT-5.5는 약 $26.35)
주의해야 할 숨겨진 비용
사고 모드 토큰 인플레이션:
thinking_max는non-thinking보다 3~10배 많은 토큰을 소모. 출력 요율로 과금됨. Think Max는 꼭 필요한 경우만 사용.컨텍스트 증가:
대화 전체를 반복 공급하는 에이전트 루프는 비용이 급증. 토큰 잘라내기/요약 필수.재시도 폭풍:
500 에러마다 무제한 재시도하는 루프는 비용을 급증시킴. 반드시 지수 백오프와 요청당 재시도 상한을 구현.개발 변동:
매번 전체 컨텍스트를 실행하는 개발 패턴은 비용이 큼.
Apidog에서 프롬프트 변수화로 비용 최소화 가능.
Apidog에서 비용 추적
-
Apidog 다운로드 및
DEEPSEEK_API_KEY를 환경별 비밀 변수로 저장 -
https://api.deepseek.com/v1/chat/completions에 대한 POST 요청 템플릿 저장 - 응답 패널에서
usage.prompt_tokens,usage.completion_tokens,usage.reasoning_tokens를 고정해 모든 호출의 비용을 실시간 확인 -
model,thinking_mode를 변수화해 V4-Flash/Pro, Non-Think/Think Max A/B 테스트 - GPT-5.5 컬렉션도 동일하게 구성해 두 모델 비용을 한눈에 비교 (설정 방법은 GPT-5.5 API 가이드 참고)
이 워크플로우로 월말 청구서의 80% 이상 예기치 않은 비용을 예방할 수 있습니다.
지출을 예측 가능하게 유지하는 네 가지 규칙
기본은 V4-Flash
품질 격차가 수익에 영향 줄 때만 V4-Pro로 전환기본은 Non-Think
어려운 작업에서만 Think High/Max 사용max_tokens제한
384K 출력 상한은 안전장치, 실제 프로덕션은 2K 내외로 충분사용량 원격 측정(telemetry) 기록
모든 호출에서prompt_tokens,completion_tokens,reasoning_tokens기록 및 급증 시 경고 알림
자주 묻는 질문
무료 등급이 있나요?
무료 API 등급은 없으나, 신규 계정에는 소액 체험 크레딧이 제공될 수 있습니다. API 외 무료 경로는 DeepSeek V4를 무료로 사용하는 방법 참고.
캐시 적중 가격은 어떻게 작동하나요?
동일 계정에서 1,024 토큰 이상 반복 접두사는 캐시 적중 요율 적용. 첫 호출만 캐시 미스 요율, 이후 동일 접두사 호출은 할인 자동 적용.
사고 모드는 비용이 더 많이 드나요?
토큰당 요율은 동일. 단, 사고 모드는 추론 과정까지 생성하여 토큰 소모량이 증가. usage.reasoning_tokens 추적 필수.
가격은 안정적인가요?
DeepSeek은 가격을 주기적으로 변경합니다. 예산 책정 전 실시간 가격 페이지 확인 필수.
V4-Pro와 V4-Flash는 동일한 출력 요율인가요?
아닙니다. V4-Pro 출력은 $3.48/M, V4-Flash는 $0.28/M. 12.4배 차이로 V4-Flash가 기본 선택지.
Anthropic-형식 엔드포인트도 가격에 영향 있나요?
아니요. https://api.deepseek.com/anthropic 역시 동일 요율로 청구됩니다. 엔드포인트 형식과 무관.
Top comments (0)