DeepSeek V4는 2026년 4월 23일에 4개의 체크포인트, 라이브 API, 그리고 Hugging Face에 MIT 라이선스로 공개된 가중치와 함께 출시되었습니다. 한 가지 “정답”이 존재하지 않으므로, 즉각적인 접근, 프로덕션 API 호출, 온프레미스 배포 중 원하는 경로를 명확히 해야 합니다. 이 가이드는 각각의 장단점과 주의할 점, 그리고 프로덕션에서 바로 쓸 수 있는 프롬프트 워크플로우 예시를 제공합니다.
제품 개요만 필요하다면 DeepSeek V4란 무엇인가를, API 사용 예시는 DeepSeek V4 API 가이드를, 무료 사용법은 DeepSeek V4를 무료로 사용하는 방법을 참고하세요. 실전 요청을 바로 테스트하려면 Apidog에서 미리 컬렉션을 빌드하세요.
요약 (TL;DR)
- 가장 빠른 경로: chat.deepseek.com. 무료 웹 채팅, V4-Pro 기본, 세 가지 추론 모드 지원.
- 프로덕션 경로: 모델 ID
deepseek-v4-pro또는deepseek-v4-flash를 사용하는https://api.deepseek.com/v1/chat/completions. - 자체 호스팅: Hugging Face에서 가중치 다운로드 후 저장소
/inference스크립트 실행. - 라우팅/분류엔 Non-Think, 코드/분석엔 Think High, 정확성 우선만 Think Max 선택.
- DeepSeek 샘플링 권장값:
temperature=1.0, top_p=1.0. - API 클라이언트는 Apidog 권장. OpenAI 호환 포맷으로 DeepSeek, OpenAI, Anthropic를 한 요청에서 재생 가능.
워크로드에 적합한 경로 선택
실제 사용 가능한 네 가지 경로와 각각의 강점은 다음과 같습니다.
| 경로 | 비용 | 설정 시간 | 최적 사용처 |
|---|---|---|---|
| chat.deepseek.com | 무료 | 30초 | 빠른 테스트, 즉석 작업 |
| DeepSeek API | 토큰당 요금 부과 | 5분 | 프로덕션, 에이전트, 배치 작업 |
| 자체 호스팅 V4-Flash | 하드웨어 비용 | 몇 시간 | 온프레미스, 오프라인 추론 |
| 자체 호스팅 V4-Pro | 클러스터 비용 | 하루 | 연구, 커스텀 파인튜닝 |
| OpenRouter / 애그리게이터 | 토큰당 요금 | 2분 | 다중 공급자 폴백 |
경로 1: 웹 채팅에서 V4 사용하기
- chat.deepseek.com에 접속
- 이메일/Google/WeChat 로그인
- V4-Pro 기본 선택, 상단 토글로 Non-Think, Think High, Think Max 전환
- 입력 시작
웹 채팅은 파일 업로드, 웹 검색, 1M 토큰 컨텍스트를 지원합니다. 계정별 속도 제한이 있으며, 사용이 과도할 경우 응답이 느려질 수 있습니다.
추천 활용: 오류 추적 진단, 대용량 PDF 요약, 경쟁 모델 벤치마킹 등. 자동화나 반복적 재생에는 적합하지 않습니다.
경로 2: DeepSeek API 사용하기
대부분의 팀이 선택하는 방식입니다. API는 OpenAI 호환 포맷을 사용하며, 모델 ID는 2026년 7월 이후에도 동일하게 유지됩니다.
키 얻기
- platform.deepseek.com에서 가입
- 결제 수단 등록(최소 2달러 충전)
- API Keys에서 키 생성 후 복사(재확인 불가)
export DEEPSEEK_API_KEY="sk-..."
최소 유효 요청
curl https://api.deepseek.com/v1/chat/completions \
-H "Authorization: Bearer $DEEPSEEK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-v4-pro",
"messages": [
{"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
],
"thinking_mode": "thinking"
}'
저렴한 옵션: deepseek-v4-flash 모델 ID 사용. 속도 우선: thinking_mode를 non-thinking으로 변경.
Python 클라이언트
import os
from openai import OpenAI
client = OpenAI(
api_key=os.environ["DEEPSEEK_API_KEY"],
base_url="https://api.deepseek.com/v1",
)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[
{"role": "system", "content": "You are a concise senior engineer."},
{"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
],
extra_body={"thinking_mode": "thinking_max"},
temperature=1.0,
top_p=1.0,
)
print(response.choices[0].message.content)
Node 클라이언트
import OpenAI from "openai";
const client = new OpenAI({
apiKey: process.env.DEEPSEEK_API_KEY,
baseURL: "https://api.deepseek.com/v1",
});
const response = await client.chat.completions.create({
model: "deepseek-v4-flash",
messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
temperature: 1.0,
top_p: 1.0,
});
console.log(response.choices[0].message.content);
엔드포인트 상세, 파라미터 표, 오류처리는 DeepSeek V4 API 가이드 참고.
경로 3: Apidog로 반복 작업하기
Curl은 단발 테스트엔 적합하지만, 반복 작업에는 Apidog가 훨씬 효율적입니다.
- Mac/Windows/Linux용 Apidog 다운로드
- 새 API 프로젝트 생성,
https://api.deepseek.com/v1/chat/completionsPOST 요청 추가 - 헤더에
Authorization: Bearer {{DEEPSEEK_API_KEY}}추가, 키는 환경변수에 저장 - JSON 본문 붙여넣고 저장, 원하는 만큼 클릭으로 즉시 재실행
- 응답 뷰어에서 Non-Think/Think Max 결과 추론 비교
OpenAI GPT-5.5, Claude, DeepSeek V4 요청을 한 컬렉션에 나란히 관리할 수 있어, 공급자 간 A/B 테스트가 간편합니다. 기존 GPT-5.5 API 컬렉션은 기본 URL만 바꾸면 V4로 바로 전환됩니다.
경로 4: V4-Flash 자체 호스팅하기
규정 준수, 에어갭, 단위 경제성 등으로 호스팅 API가 어렵다면, MIT 라이선스를 활용한 자체 호스팅이 가능합니다.
하드웨어
- V4-Flash (13B 활성, 284B 전체): FP8 기준 H100/H200/MI300X 카드 2~4개 필요. INT4 양자화 시 80GB 단일 카드 가능.
- V4-Pro (49B 활성, 1.6T 전체): H100 16~32개 이상 요구.
가중치 가져오기
pip install -U "huggingface_hub[cli]"
huggingface-cli login # (공개 모델이지만 로그인하면 더 빠름)
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash \
--local-dir-use-symlinks False
V4-Flash는 FP8 기준 약 500GB, V4-Pro는 수 TB 용량이 필요합니다.
추론 실행
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto
vLLM 서비스가 실행되면 OpenAI 호환 클라이언트의 base_url을 http://localhost:8000/v1로 지정하면 됩니다. Apidog에서도 동일한 컬렉션을 base_url만 바꿔 재활용할 수 있습니다.
V4에 효과적으로 프롬프트하기
-
thinking_mode를 명시적으로 지정 — 작업별로
thinking_mode를 직접 지정. 모델 자동선택에 의존하지 마세요. - 시스템 프롬프트는 페르소나 중심 — 작업 사양은 user 메시지에, 톤/제약은 system 메시지에.
- 코드 작업에는 테스트 하니스 제공 — 실패하는 테스트 케이스를 붙여넣으면, 단순 설명보다 더 정확한 코드를 생성합니다.
긴 컨텍스트 작업 시, 중요한 자료는 입력 창 상단과 하단에 근접하게 배치하세요. V4의 하이브리드 어텐션이라도 최신성/초두 효과 편향은 남아있습니다.
비용 관리
- V4-Flash 기본 사용 — V4-Pro는 정말 필요한 경우에만.
- Non-Think 기본 사용 — 어려운 작업만 Think High/Max로 확장.
-
max_tokens제한 — 대부분의 답변은 2,000 토큰 이하로 충분.
Apidog에서 DEEPSEEK_API_KEY를 테스트/프로덕션 계정별 환경변수로 관리하세요. Apidog는 응답 토큰 수도 자동 기록하므로, 과도한 프롬프트 탐지도 용이합니다.
DeepSeek V3 또는 다른 모델에서 마이그레이션
-
deepseek-chat/deepseek-reasoner에서: 모델 ID를deepseek-v4-pro또는deepseek-v4-flash로 교체. 2026년 7월 24일 이전 마이그레이션 필수. -
OpenAI GPT-5.x에서: base_url만
https://api.deepseek.com/v1로 변경, 모델 ID만 교체. GPT-5.5 API 가이드 참고. -
Anthropic Claude에서: Anthropic 메시지 형식 유지 시
https://api.deepseek.com/anthropic사용, 아니면 OpenAI 포맷으로 재구성.
자주 묻는 질문 (FAQ)
- V4 사용에 유료 계정 필수인가요? 웹 채팅은 무료, API는 최소 2달러 충전 필요. 무비용 경로는 DeepSeek V4 무료 사용법 참고.
- 어떤 변형을 기본으로 써야 하나요? V4-Flash의 Non-Think로 시작, 필요시 상위 모드 전환.
- MacBook에서 V4 실행 가능? V4-Flash는 128GB RAM의 M3 Max/M4 Max에서 느리게 구동, V4-Pro는 불가. 노트북 실험용으론 API나 웹 채팅 활용 권장.
-
도구 사용/함수 호출 지원? 네. OpenAI 호환 엔드포인트는
tools배열,tool_calls응답 지원. Anthropic 엔드포인트도 네이티브 도구 스키마 지원. -
응답 스트리밍 방법? 요청 본문에
stream: true지정. 표준 OpenAI SSE 스트림이므로 기존 라이브러리 그대로 사용. - 속도 제한? 호스팅 API는 api-docs.deepseek.com에서 계층별 제한 확인. 자체 호스팅은 하드웨어 제한 외 별도 제한 없음.


Top comments (0)