Rihpig

Posted on Apr 24 • Originally published at apidog.com

DeepSeek V4 API 가격

DeepSeek은 2026년 4월 23일 V4 모델 가격을 공개하면서, 선도적 AI 모델 시장의 새로운 가격 기준을 제시했습니다. V4-Flash는 백만 입력 토큰당 $0.14, 출력 토큰당 $0.28로, V4-Pro는 입력 백만 토큰당 $1.74, 출력 백만 토큰당 $3.48로 책정되었습니다. 두 모델 모두 1M 입력 토큰, 최대 384K 출력 토큰 컨텍스트 창을 지원하며, 반복 프롬프트에 대해 입력 비용을 최대 90%까지 절감하는 캐시 적중 할인을 제공합니다.

오늘 Apidog을 체험해보세요

이 글에서는 전체 DeepSeek V4 요금표, 컨텍스트 캐싱이 호출당 실제 비용에 미치는 영향, GPT-5.5 및 Claude Opus와의 실제 비교, 그리고 Apidog에서 개발자가 비용 예측을 쉽게 할 수 있는 네 가지 실전 방법을 다룹니다.

제품 개요는 DeepSeek V4란 무엇인가를, 개발자 가이드는 DeepSeek V4 API 사용 방법를 참고하세요. 무료 사용법은 DeepSeek V4를 무료로 사용하는 방법을 확인할 수 있습니다.

요약 (TL;DR)

V4-Flash: 입력 백만 토큰당 $0.14 (캐시 미스), $0.028 (캐시 적중), 출력 백만 토큰당 $0.28
V4-Pro: 입력 백만 토큰당 $1.74 (캐시 미스), $0.145 (캐시 적중), 출력 백만 토큰당 $3.48
컨텍스트 창: 두 모델 모두 1M 토큰 입력, 384K 토큰 출력
캐시 적중 할인: 반복 접두사에 대해 Flash는 약 80% 할인, Pro는 92% 할인
deepseek-chat, deepseek-reasoner는 2026년 7월 24일 사용 중단 및 V4-Flash 요율로 매핑
캐시 미스 기준 V4-Pro는 입력에서 GPT-5.5보다 2.9배, 출력에서 8.6배 저렴

전체 요금표

모델	입력 (캐시 미스)	입력 (캐시 적중)	출력	컨텍스트
`deepseek-v4-flash`	$0.14 / M	$0.028 / M	$0.28 / M	1M / 384K
`deepseek-v4-pro`	$1.74 / M	$0.145 / M	$3.48 / M	1M / 384K
`deepseek-chat` (2026-07-24 사용 중단)	V4-Flash 비-사고 모드에 매핑	—	—	—
`deepseek-reasoner` (2026-07-24 사용 중단)	V4-Flash 사고 모드에 매핑	—	—	—

실제 사용 시 주의할 세부사항:

사고(thinking) 및 비사고(non-thinking) 모드 모두 동일한 가격이 적용됩니다. 단, 추론 모드에 따라 토큰 소모량이 달라집니다.
캐시 적중 할인은 자동 적용됩니다. 동일한 계정 내에서 1,024 토큰 이상 반복되는 접두사를 사용하는 모든 요청에 할인 적용(설정 필요 없음).
기존 deepseek-chat 및 deepseek-reasoner는 V4-Flash로 청구됩니다. 2026년 7월 24일까지 마이그레이션 필요.

컨텍스트 캐싱을 쉽게 설명

캐싱은 DeepSeek V4의 핵심 비용 절감 수단입니다. 긴 시스템 프롬프트, 에이전트 도구 스키마, RAG 컨텍스트 등 반복되는 입력은 두 번째 호출부터 입력 요율의 일부만 과금됩니다.

예시

20,000 토큰 시스템 프롬프트 + 200 토큰 사용자 질문 100회 호출
캐싱 미적용:
- 입력: 100 × 20,200 × $1.74 / M = $3.52
- 출력: 100 × 500 × $3.48 / M = $0.17
- 합계: $3.69
캐싱 적용:
- 첫 입력: 20,200 × $1.74 / M = $0.035
- 99회 캐시 적중 접두사: 99 × 20,000 × $0.145 / M = $0.287
- 99회 캐시 미스 사용자 질문: 99 × 200 × $1.74 / M = $0.034
- 출력: 100 × 500 × $3.48 / M = $0.174
- 합계: $0.53

동일 워크로드에서 약 7배 절감. V4-Flash는 더 극적인 효과를 보입니다.

GPT-5.5 및 Claude와의 비교

모델	입력 (표준)	입력 (캐시됨)	출력	컨텍스트
DeepSeek V4-Flash	$0.14 / M	$0.028 / M	$0.28 / M	1M
DeepSeek V4-Pro	$1.74 / M	$0.145 / M	$3.48 / M	1M
GPT-5.5	$5 / M	$1.25 / M	$30 / M	1M
GPT-5.5 Pro	$30 / M	—	$180 / M	1M
Claude Opus 4.6	$15 / M	$1.50 / M	$75 / M	200K

출력 토큰 기준: V4-Pro는 GPT-5.5보다 8.6배, Claude Opus 4.6보다 21배 저렴
캐시된 입력 기준: V4-Pro는 GPT-5.5/Claude 대비 약 10배 저렴
성능 대비: V4-Pro는 LiveCodeBench, Codeforces 등에서 GPT-5.5와 동급/상회

참고: Claude는 긴 컨텍스트 검색에서는 여전히 강점을 가지고 있으니, 워크로드 특성에 따라 품질/비용을 비교하세요.

일반적인 워크로드별 비용 모델링

아래는 V4-Pro 기준(캐시 미스) 실제 비용 예시입니다.

1. 에이전트형 코딩 루프 (50K 컨텍스트, 2K 출력, 20회 호출)

입력: 50,000 × 20 × $1.74 / M = $1.74
출력: 2,000 × 20 × $3.48 / M = $0.14
작업당 약 $1.88 (GPT-5.5는 약 $6.20)

2. 긴 문서 Q&A (500K 컨텍스트, 1K 출력)

입력: 500,000 × $1.74 / M = $0.87
출력: 1,000 × $3.48 / M = $0.003
호출당 약 $0.87 (GPT-5.5는 약 $2.53)

3. 대량 분류 (2K 컨텍스트, 200 출력, 10,000회 호출)

이 경우 V4-Flash 사용 권장

입력: 2,000 × 10,000 × $0.14 / M = $2.80
출력: 200 × 10,000 × $0.28 / M = $0.56
약 $3.36 (GPT-5.5는 약 $110)

4. 반복 프롬프트 챗봇 (10K 시스템 프롬프트, 500 사용자 토큰, 1K 출력, 1,000 세션)

첫 호출 입력: 10,500 × $1.74 / M = $0.018
캐시 적중 입력: 999 × 10,000 × $0.145 / M = $1.45
캐시 미스 사용자 질문: 999 × 500 × $1.74 / M = $0.87
출력: 1,000 × 1,000 × $3.48 / M = $3.48
세션당 약 $5.82 (GPT-5.5는 약 $26.35)

주의해야 할 숨겨진 비용

사고 모드 토큰 인플레이션:

thinking_max는 non-thinking보다 3~10배 많은 토큰을 소모. 출력 요율로 과금됨. Think Max는 꼭 필요한 경우만 사용.
컨텍스트 증가:

대화 전체를 반복 공급하는 에이전트 루프는 비용이 급증. 토큰 잘라내기/요약 필수.
재시도 폭풍:

500 에러마다 무제한 재시도하는 루프는 비용을 급증시킴. 반드시 지수 백오프와 요청당 재시도 상한을 구현.
개발 변동:

매번 전체 컨텍스트를 실행하는 개발 패턴은 비용이 큼.

Apidog에서 프롬프트 변수화로 비용 최소화 가능.

Apidog에서 비용 추적

Apidog 다운로드 및 DEEPSEEK_API_KEY를 환경별 비밀 변수로 저장
https://api.deepseek.com/v1/chat/completions에 대한 POST 요청 템플릿 저장
응답 패널에서 usage.prompt_tokens, usage.completion_tokens, usage.reasoning_tokens를 고정해 모든 호출의 비용을 실시간 확인
model, thinking_mode를 변수화해 V4-Flash/Pro, Non-Think/Think Max A/B 테스트
GPT-5.5 컬렉션도 동일하게 구성해 두 모델 비용을 한눈에 비교 (설정 방법은 GPT-5.5 API 가이드 참고)

이 워크플로우로 월말 청구서의 80% 이상 예기치 않은 비용을 예방할 수 있습니다.

지출을 예측 가능하게 유지하는 네 가지 규칙

기본은 V4-Flash

품질 격차가 수익에 영향 줄 때만 V4-Pro로 전환
기본은 Non-Think

어려운 작업에서만 Think High/Max 사용
max_tokens 제한

384K 출력 상한은 안전장치, 실제 프로덕션은 2K 내외로 충분
사용량 원격 측정(telemetry) 기록

모든 호출에서 prompt_tokens, completion_tokens, reasoning_tokens 기록 및 급증 시 경고 알림

자주 묻는 질문

무료 등급이 있나요?

무료 API 등급은 없으나, 신규 계정에는 소액 체험 크레딧이 제공될 수 있습니다. API 외 무료 경로는 DeepSeek V4를 무료로 사용하는 방법 참고.

캐시 적중 가격은 어떻게 작동하나요?

동일 계정에서 1,024 토큰 이상 반복 접두사는 캐시 적중 요율 적용. 첫 호출만 캐시 미스 요율, 이후 동일 접두사 호출은 할인 자동 적용.

사고 모드는 비용이 더 많이 드나요?

토큰당 요율은 동일. 단, 사고 모드는 추론 과정까지 생성하여 토큰 소모량이 증가. usage.reasoning_tokens 추적 필수.

가격은 안정적인가요?

DeepSeek은 가격을 주기적으로 변경합니다. 예산 책정 전 실시간 가격 페이지 확인 필수.

V4-Pro와 V4-Flash는 동일한 출력 요율인가요?

아닙니다. V4-Pro 출력은 $3.48/M, V4-Flash는 $0.28/M. 12.4배 차이로 V4-Flash가 기본 선택지.

Anthropic-형식 엔드포인트도 가격에 영향 있나요?

아니요. https://api.deepseek.com/anthropic 역시 동일 요율로 청구됩니다. 엔드포인트 형식과 무관.

DEV Community