DEV Community

Cover image for DeepSeek V4 API 가격
Rihpig
Rihpig

Posted on • Originally published at apidog.com

DeepSeek V4 API 가격

DeepSeek은 2026년 4월 23일 V4 모델 가격을 공개하면서, 선도적 AI 모델 시장의 새로운 가격 기준을 제시했습니다. V4-Flash는 백만 입력 토큰당 $0.14, 출력 토큰당 $0.28로, V4-Pro는 입력 백만 토큰당 $1.74, 출력 백만 토큰당 $3.48로 책정되었습니다. 두 모델 모두 1M 입력 토큰, 최대 384K 출력 토큰 컨텍스트 창을 지원하며, 반복 프롬프트에 대해 입력 비용을 최대 90%까지 절감하는 캐시 적중 할인을 제공합니다.

오늘 Apidog을 체험해보세요

이 글에서는 전체 DeepSeek V4 요금표, 컨텍스트 캐싱이 호출당 실제 비용에 미치는 영향, GPT-5.5 및 Claude Opus와의 실제 비교, 그리고 Apidog에서 개발자가 비용 예측을 쉽게 할 수 있는 네 가지 실전 방법을 다룹니다.

제품 개요는 DeepSeek V4란 무엇인가를, 개발자 가이드는 DeepSeek V4 API 사용 방법를 참고하세요. 무료 사용법은 DeepSeek V4를 무료로 사용하는 방법을 확인할 수 있습니다.

요약 (TL;DR)

  • V4-Flash: 입력 백만 토큰당 $0.14 (캐시 미스), $0.028 (캐시 적중), 출력 백만 토큰당 $0.28
  • V4-Pro: 입력 백만 토큰당 $1.74 (캐시 미스), $0.145 (캐시 적중), 출력 백만 토큰당 $3.48
  • 컨텍스트 창: 두 모델 모두 1M 토큰 입력, 384K 토큰 출력
  • 캐시 적중 할인: 반복 접두사에 대해 Flash는 약 80% 할인, Pro는 92% 할인
  • deepseek-chat, deepseek-reasoner2026년 7월 24일 사용 중단 및 V4-Flash 요율로 매핑
  • 캐시 미스 기준 V4-Pro는 입력에서 GPT-5.5보다 2.9배, 출력에서 8.6배 저렴

전체 요금표

모델 입력 (캐시 미스) 입력 (캐시 적중) 출력 컨텍스트
deepseek-v4-flash $0.14 / M $0.028 / M $0.28 / M 1M / 384K
deepseek-v4-pro $1.74 / M $0.145 / M $3.48 / M 1M / 384K
deepseek-chat (2026-07-24 사용 중단) V4-Flash 비-사고 모드에 매핑
deepseek-reasoner (2026-07-24 사용 중단) V4-Flash 사고 모드에 매핑

실제 사용 시 주의할 세부사항:

  • 사고(thinking) 및 비사고(non-thinking) 모드 모두 동일한 가격이 적용됩니다. 단, 추론 모드에 따라 토큰 소모량이 달라집니다.
  • 캐시 적중 할인은 자동 적용됩니다. 동일한 계정 내에서 1,024 토큰 이상 반복되는 접두사를 사용하는 모든 요청에 할인 적용(설정 필요 없음).
  • 기존 deepseek-chatdeepseek-reasoner는 V4-Flash로 청구됩니다. 2026년 7월 24일까지 마이그레이션 필요.

컨텍스트 캐싱을 쉽게 설명

캐싱은 DeepSeek V4의 핵심 비용 절감 수단입니다. 긴 시스템 프롬프트, 에이전트 도구 스키마, RAG 컨텍스트 등 반복되는 입력은 두 번째 호출부터 입력 요율의 일부만 과금됩니다.

예시

  • 20,000 토큰 시스템 프롬프트 + 200 토큰 사용자 질문 100회 호출
  • 캐싱 미적용:
    • 입력: 100 × 20,200 × $1.74 / M = $3.52
    • 출력: 100 × 500 × $3.48 / M = $0.17
    • 합계: $3.69
  • 캐싱 적용:
    • 첫 입력: 20,200 × $1.74 / M = $0.035
    • 99회 캐시 적중 접두사: 99 × 20,000 × $0.145 / M = $0.287
    • 99회 캐시 미스 사용자 질문: 99 × 200 × $1.74 / M = $0.034
    • 출력: 100 × 500 × $3.48 / M = $0.174
    • 합계: $0.53

동일 워크로드에서 약 7배 절감. V4-Flash는 더 극적인 효과를 보입니다.

GPT-5.5 및 Claude와의 비교

모델 입력 (표준) 입력 (캐시됨) 출력 컨텍스트
DeepSeek V4-Flash $0.14 / M $0.028 / M $0.28 / M 1M
DeepSeek V4-Pro $1.74 / M $0.145 / M $3.48 / M 1M
GPT-5.5 $5 / M $1.25 / M $30 / M 1M
GPT-5.5 Pro $30 / M $180 / M 1M
Claude Opus 4.6 $15 / M $1.50 / M $75 / M 200K
  • 출력 토큰 기준: V4-Pro는 GPT-5.5보다 8.6배, Claude Opus 4.6보다 21배 저렴
  • 캐시된 입력 기준: V4-Pro는 GPT-5.5/Claude 대비 약 10배 저렴
  • 성능 대비: V4-Pro는 LiveCodeBench, Codeforces 등에서 GPT-5.5와 동급/상회

참고: Claude는 긴 컨텍스트 검색에서는 여전히 강점을 가지고 있으니, 워크로드 특성에 따라 품질/비용을 비교하세요.

일반적인 워크로드별 비용 모델링

아래는 V4-Pro 기준(캐시 미스) 실제 비용 예시입니다.

1. 에이전트형 코딩 루프 (50K 컨텍스트, 2K 출력, 20회 호출)

  • 입력: 50,000 × 20 × $1.74 / M = $1.74
  • 출력: 2,000 × 20 × $3.48 / M = $0.14
  • 작업당 약 $1.88 (GPT-5.5는 약 $6.20)

2. 긴 문서 Q&A (500K 컨텍스트, 1K 출력)

  • 입력: 500,000 × $1.74 / M = $0.87
  • 출력: 1,000 × $3.48 / M = $0.003
  • 호출당 약 $0.87 (GPT-5.5는 약 $2.53)

3. 대량 분류 (2K 컨텍스트, 200 출력, 10,000회 호출)

이 경우 V4-Flash 사용 권장

  • 입력: 2,000 × 10,000 × $0.14 / M = $2.80
  • 출력: 200 × 10,000 × $0.28 / M = $0.56
  • 약 $3.36 (GPT-5.5는 약 $110)

4. 반복 프롬프트 챗봇 (10K 시스템 프롬프트, 500 사용자 토큰, 1K 출력, 1,000 세션)

  • 첫 호출 입력: 10,500 × $1.74 / M = $0.018
  • 캐시 적중 입력: 999 × 10,000 × $0.145 / M = $1.45
  • 캐시 미스 사용자 질문: 999 × 500 × $1.74 / M = $0.87
  • 출력: 1,000 × 1,000 × $3.48 / M = $3.48
  • 세션당 약 $5.82 (GPT-5.5는 약 $26.35)

주의해야 할 숨겨진 비용

  1. 사고 모드 토큰 인플레이션:

    thinking_maxnon-thinking보다 3~10배 많은 토큰을 소모. 출력 요율로 과금됨. Think Max는 꼭 필요한 경우만 사용.

  2. 컨텍스트 증가:

    대화 전체를 반복 공급하는 에이전트 루프는 비용이 급증. 토큰 잘라내기/요약 필수.

  3. 재시도 폭풍:

    500 에러마다 무제한 재시도하는 루프는 비용을 급증시킴. 반드시 지수 백오프와 요청당 재시도 상한을 구현.

  4. 개발 변동:

    매번 전체 컨텍스트를 실행하는 개발 패턴은 비용이 큼.

    Apidog에서 프롬프트 변수화로 비용 최소화 가능.

Apidog에서 비용 추적

  1. Apidog 다운로드DEEPSEEK_API_KEY를 환경별 비밀 변수로 저장
  2. https://api.deepseek.com/v1/chat/completions에 대한 POST 요청 템플릿 저장
  3. 응답 패널에서 usage.prompt_tokens, usage.completion_tokens, usage.reasoning_tokens를 고정해 모든 호출의 비용을 실시간 확인
  4. model, thinking_mode를 변수화해 V4-Flash/Pro, Non-Think/Think Max A/B 테스트
  5. GPT-5.5 컬렉션도 동일하게 구성해 두 모델 비용을 한눈에 비교 (설정 방법은 GPT-5.5 API 가이드 참고)

이 워크플로우로 월말 청구서의 80% 이상 예기치 않은 비용을 예방할 수 있습니다.

지출을 예측 가능하게 유지하는 네 가지 규칙

  1. 기본은 V4-Flash

    품질 격차가 수익에 영향 줄 때만 V4-Pro로 전환

  2. 기본은 Non-Think

    어려운 작업에서만 Think High/Max 사용

  3. max_tokens 제한

    384K 출력 상한은 안전장치, 실제 프로덕션은 2K 내외로 충분

  4. 사용량 원격 측정(telemetry) 기록

    모든 호출에서 prompt_tokens, completion_tokens, reasoning_tokens 기록 및 급증 시 경고 알림

자주 묻는 질문

무료 등급이 있나요?

무료 API 등급은 없으나, 신규 계정에는 소액 체험 크레딧이 제공될 수 있습니다. API 외 무료 경로는 DeepSeek V4를 무료로 사용하는 방법 참고.

캐시 적중 가격은 어떻게 작동하나요?

동일 계정에서 1,024 토큰 이상 반복 접두사는 캐시 적중 요율 적용. 첫 호출만 캐시 미스 요율, 이후 동일 접두사 호출은 할인 자동 적용.

사고 모드는 비용이 더 많이 드나요?

토큰당 요율은 동일. 단, 사고 모드는 추론 과정까지 생성하여 토큰 소모량이 증가. usage.reasoning_tokens 추적 필수.

가격은 안정적인가요?

DeepSeek은 가격을 주기적으로 변경합니다. 예산 책정 전 실시간 가격 페이지 확인 필수.

V4-Pro와 V4-Flash는 동일한 출력 요율인가요?

아닙니다. V4-Pro 출력은 $3.48/M, V4-Flash는 $0.28/M. 12.4배 차이로 V4-Flash가 기본 선택지.

Anthropic-형식 엔드포인트도 가격에 영향 있나요?

아니요. https://api.deepseek.com/anthropic 역시 동일 요율로 청구됩니다. 엔드포인트 형식과 무관.

Top comments (0)