DEV Community

Cover image for Hướng Dẫn Sử Dụng DeepSeek V4: Web Chat, API và Tự Lưu Trữ
Sebastian Petrus
Sebastian Petrus

Posted on • Originally published at apidog.com

Hướng Dẫn Sử Dụng DeepSeek V4: Web Chat, API và Tự Lưu Trữ

DeepSeek V4 được phát hành ngày 23/4/2026 với 4 checkpoint, API trực tiếp và trọng số MIT trên Hugging Face. Bạn có thể dùng ngay qua web, gọi API sản xuất hoặc tự triển khai tại chỗ. Bài này hướng dẫn chi tiết từng cách, các bước thực hiện, ưu nhược điểm và quy trình sẵn sàng cho sản xuất.

Dùng thử Apidog ngay hôm nay

Nếu bạn cần tổng quan sản phẩm, xem DeepSeek V4 là gì. Cần hướng dẫn API, xem hướng dẫn API DeepSeek V4. Muốn dùng miễn phí, đọc cách sử dụng DeepSeek V4 miễn phí. Khi sẵn sàng test thực tế, tải Apidog để chuẩn bị bộ sưu tập.

TL;DR (Tóm tắt)

  • Truy cập nhanh nhất: chat.deepseek.com. Chat web miễn phí, mặc định V4-Pro, ba chế độ suy luận.
  • API sản xuất: https://api.deepseek.com/v1/chat/completions, model deepseek-v4-pro hoặc deepseek-v4-flash.
  • Tự host: tải trọng số từ Hugging Face, chạy script /inference trong repo.
  • Chọn **Non-Think** cho định tuyến/phân loại, **Think High** cho code/phân tích, **Think Max** khi cần độ chính xác tối đa.
  • Sampling khuyến nghị: temperature=1.0, top_p=1.0.
  • Dùng Apidog làm client API; format OpenAI nên có thể dùng lại request với DeepSeek, OpenAI, Anthropic.

Chọn đường dẫn phù hợp cho khối lượng công việc của bạn

Bốn đường dẫn thực tế, mỗi loại phù hợp từng use case:

Đường dẫn Chi phí Thời gian thiết lập Tốt nhất cho
chat.deepseek.com Miễn phí 30 giây Kiểm tra nhanh, công việc tạm thời
API DeepSeek Thanh toán theo token 5 phút Sản xuất, tác nhân, công việc hàng loạt
V4-Flash tự host Chỉ chi phí phần cứng Vài giờ Tuân thủ tại chỗ, suy luận offline
V4-Pro tự host Chỉ chi phí cụm Một ngày Nghiên cứu, tinh chỉnh tùy chỉnh
OpenRouter / aggregator Thanh toán theo token 2 phút Dự phòng đa nhà cung cấp

Đường dẫn 1: Sử dụng V4 qua giao diện chat web

  1. Truy cập chat.deepseek.com.
  2. Đăng nhập bằng email, Google hoặc WeChat.
  3. Chọn model ở đầu editor: V4-Pro mặc định, chuyển Non-Think / Think High / Think Max tùy tác vụ.
  4. Bắt đầu chat, upload file nếu cần.

Chat web hỗ trợ upload file, tìm kiếm web, ngữ cảnh 1 triệu token. Tốt cho: debug, tóm tắt file PDF lớn, so sánh với GPT-5.5/Claude. Không phù hợp cho tự động hóa hoặc phát lại lặp đi lặp lại.

Đường dẫn 2: Sử dụng API DeepSeek

API DeepSeek tương thích OpenAI, giữ ID model deepseek-v4-prodeepseek-v4-flash sau 24/7/2026.

Lấy khóa API

  1. Đăng ký tại platform.deepseek.com.
  2. Thêm phương thức thanh toán (tối thiểu $2).
  3. Tạo API Key tại mục API Keys, copy ngay vì chỉ hiển thị một lần.

Xuất khóa cho client:

export DEEPSEEK_API_KEY="sk-..."

Yêu cầu tối thiểu khả thi

curl https://api.deepseek.com/v1/chat/completions \
  -H "Authorization: Bearer $DEEPSEEK_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "deepseek-v4-pro",
    "messages": [
      {"role": "user", "content": "Refactor this Python function to async. Reply with code only."}
    ],
    "thinking_mode": "thinking"
  }'

Thay deepseek-v4-pro bằng deepseek-v4-flash nếu muốn tiết kiệm chi phí. Đổi thinking thành non-thinking nếu cần tốc độ.

Client Python

import os
from openai import OpenAI

client = OpenAI(
    api_key=os.environ["DEEPSEEK_API_KEY"],
    base_url="https://api.deepseek.com/v1",
)

response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[
        {"role": "system", "content": "You are a concise senior engineer."},
        {"role": "user", "content": "Explain the CSA+HCA hybrid attention stack."},
    ],
    extra_body={"thinking_mode": "thinking_max"},
    temperature=1.0,
    top_p=1.0,
)

print(response.choices[0].message.content)

Client Node

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: process.env.DEEPSEEK_API_KEY,
  baseURL: "https://api.deepseek.com/v1",
});

const response = await client.chat.completions.create({
  model: "deepseek-v4-flash",
  messages: [{ role: "user", content: "Write a fizzbuzz in Rust." }],
  temperature: 1.0,
  top_p: 1.0,
});

console.log(response.choices[0].message.content);

Xem chi tiết tham số, xử lý lỗi trong hướng dẫn API DeepSeek V4.

Đường dẫn 3: Lặp lại với Apidog

Curl tốt cho một lần test, nhưng chạy lại nhiều lần sẽ lãng phí và khó kiểm soát. Apidog giúp bạn lưu, phát lại, so sánh kết quả dễ dàng.

  1. Tải Apidog cho Mac/Win/Linux từ apidog.com.
  2. Tạo project API mới, thêm request POST tới https://api.deepseek.com/v1/chat/completions.
  3. Thêm header Authorization: Bearer {{DEEPSEEK_API_KEY}}, lưu biến môi trường.
  4. Dán body JSON, lưu lại. Từ đây chỉ cần nhấp để chạy lại, đổi prompt, đổi mode nhanh chóng.
  5. Dùng viewer tích hợp để so sánh trace giữa Non-Think vs Think Max trên cùng prompt.

Cùng bộ sưu tập có thể chứa request GPT-5.5, Claude, DeepSeek V4 – tiện cho A/B testing, theo dõi chi phí, logs token. Nếu đã dùng Apidog cho API AI khác, chỉ cần đổi base URL là xong.

Đường dẫn 4: Tự host V4-Flash

Yêu cầu compliance, airgap hoặc chi phí khiến bạn phải tự host? MIT license cho phép bạn làm chủ giải pháp này.

Phần cứng

  • V4-Flash (13B, tổng 284B): 2-4 card H100/H200/MI300X FP8. INT4 có thể chạy trên 1 card 80GB.
  • V4-Pro (49B, tổng 1.6T): Cần cụm 16-32 H100 cho inference sản xuất.

Lấy trọng số

pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash \
  --local-dir-use-symlinks False

Tải V4-Flash nặng khoảng 500GB (FP8), V4-Pro vài TB.

Chạy suy luận

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto

Khi vLLM đã chạy, trỏ client OpenAI đến http://localhost:8000/v1. Có thể dùng lại collection Apidog, chỉ thay base URL.

Thúc đẩy V4 hiệu quả

  1. Luôn chỉ định thinking_mode (non-thinking/thinking/thinking_max) rõ ràng.
  2. Lời nhắc hệ thống dùng để định hình tính cách, không nhồi task logic vào system prompt – đặt logic vào user message.
  3. Bài mã nên kèm test case rõ ràng. Paste đầu ra kiểm thử fail, model sẽ sửa code cho pass dễ hơn.

Với context dài, đặt tài liệu quan trọng ở đầu/cuối input. V4 vẫn có bias về tính gần đây và ưu tiên context đầu/cuối.

Kiểm soát chi phí

  • Mặc định dùng V4-Flash. Chỉ chuyển V4-Pro khi thật sự cần.
  • Mặc định Non-Think. Chỉ tăng lên Think High/Max khi cần độ chính xác cao.
  • Giới hạn max_tokens. Output thực tế thường 2.000 tokens, không cần context 1M trong mọi case.

Trong Apidog, dùng biến môi trường cho DEEPSEEK_API_KEY để tách tài khoản test và production. Apidog tự động log số token mỗi response – giúp phát hiện prompt quá dài.

Di chuyển từ DeepSeek V3 hoặc model khác

  • Từ deepseek-chat/deepseek-reasoner: Đổi model thành deepseek-v4-pro hoặc deepseek-v4-flash trước 24/7/2026.
  • Từ OpenAI GPT-5.x: Đổi base URL thành https://api.deepseek.com/v1, giữ format request. Xem hướng dẫn API GPT-5.5 để song song.
  • Từ Anthropic Claude: Đổi endpoint https://api.deepseek.com/anthropic hoặc chuyển sang format OpenAI.

Câu hỏi thường gặp

  • Cần tài khoản trả phí không? Chat web miễn phí. API cần nạp tối thiểu $2. Xem cách dùng miễn phí nếu muốn.
  • Nên mặc định dùng model nào? Bắt đầu với V4-Flash Non-Think, đo chất lượng và chỉ đổi khi cần.
  • Có thể chạy V4 trên MacBook không? V4-Flash chạy trên M3 Max/M4 Max 128GB RAM (INT4) nhưng chậm. V4-Pro không chạy được. Nên dùng API hoặc chat web cho laptop.
  • V4 hỗ trợ tool/function call không? Có. Endpoint OpenAI chấp nhận array tools và trả về tool_calls chuẩn. Endpoint Anthropic dùng schema tool gốc.
  • Làm sao truyền tải phản hồi? Đặt stream: true trong body. SSE stream chuẩn OpenAI. Dùng lại lib OpenAI là đủ.
  • Có rate limit không? API host công bố tại api-docs.deepseek.com. Tự host chỉ giới hạn bởi phần cứng.

Top comments (0)