Sebastian Petrus

Posted on Apr 24 • Originally published at apidog.com

Cách Sử Dụng DeepSeek V4 Miễn Phí

DeepSeek V4 ra mắt ngày 23/4/2026 với lựa chọn miễn phí thực sự: trò chuyện web chính thức chạy V4-Pro mà không cần thẻ tín dụng, trọng số cấp phép MIT có thể tải về ngay, và các aggregator như OpenRouter, Chutes thường mở tầng miễn phí chỉ sau vài ngày. Bạn có thể bắt đầu ngay các tác vụ nghiêm túc mà không tốn chi phí trước khi quyết định trả tiền.

Dùng thử Apidog ngay hôm nay

Bài viết này trình bày chi tiết các phương pháp miễn phí đã được xác minh, phù hợp từng trường hợp sử dụng, và hướng dẫn thiết lập bộ sưu tập sẵn sàng cho sản xuất trong Apidog để việc chuyển đổi trả phí diễn ra mượt mà khi cần.

Tham khảo tổng quan sản phẩm tại DeepSeek V4 là gì và hướng dẫn API đầy đủ tại Cách sử dụng API DeepSeek V4.

Tóm tắt

chat.deepseek.com — Giao diện chat web miễn phí trên V4-Pro, hỗ trợ Think High/Think Max. Không cần thẻ, hoạt động ngay.
Trọng số Hugging Face + GPU cá nhân — MIT license, V4-Flash chạy trên 2-4 H100, V4-Pro cần cụm lớn hơn.
Tầng miễn phí OpenRouter, Chutes — Cổng bên thứ ba thường có quota miễn phí cho DeepSeek sau 1 tuần ra mắt.
Inference provider Hugging Face — Điểm cuối dùng chung, giới hạn tốc độ, phù hợp thử nghiệm.
Tín dụng thử Kaggle, Colab, RunPod — Miễn phí cho các lần chạy thử nghiệm tự lưu trữ.
Mọi phương pháp miễn phí đều có hạn mức sử dụng. Với tác vụ production, chuyển sang trả phí trước khi chạm ngưỡng.

Phương pháp 1: chat.deepseek.com (cách nhanh nhất và mặc định)

Giao diện trò chuyện chính thức là cách miễn phí, nhanh, đáng tin cậy nhất để trải nghiệm V4-Pro. Chọn chế độ Non-Think, Think High hoặc Think Max ngay trên editor.

Thiết lập

Truy cập chat.deepseek.com.
Đăng nhập bằng email, Google hoặc WeChat.
Xác nhận đang dùng model V4-Pro.
Bắt đầu trò chuyện.

Tính năng

Ngữ cảnh 1M token đầy đủ.
Hỗ trợ upload PDF, ảnh, gói mã.
Tìm kiếm web theo yêu cầu.
Đầy đủ ba chế độ lập luận.
Lưu lịch sử chat và tổ chức thư mục.

Giới hạn

Không công bố số lượng tin nhắn/ngày, nhưng có giảm tốc độ nhẹ khi tải cao.
Sử dụng nhiều có thể khiến phản hồi bị chậm hoặc hàng đợi, nhưng hiếm khi bị chặn cứng.
Khi bị giới hạn tốc độ liên tục, cân nhắc giảm tần suất hoặc chuyển sang API.

Nên dùng webchat cho: kiểm tra khả năng V4, dán repo, review hợp đồng lớn, thử Think Max.

Không nên dùng: automation, yêu cầu tái lập.

Phương pháp 2: Tự lưu trữ V4-Flash trên GPU riêng

V4-Flash là biến thể MIT, phù hợp tự lưu trữ thực tế. Tổng 284B, 13B hoạt động; chạy trên 2 H100 FP8 hoặc 1 H100 80GB INT4.

Ưu điểm: Không phụ thuộc vào quota/tốc độ, không bị revoke.

Chi phí: Chỉ tốn phần cứng.

Tải trọng số

pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
  --local-dir ./models/deepseek-v4-flash

Khoảng 500GB FP8, cần chuẩn bị ổ đĩa đủ lớn.

Phục vụ với vLLM

pip install "vllm>=0.9.0"

vllm serve deepseek-ai/DeepSeek-V4-Flash \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --dtype auto \
  --port 8000

Khi chạy, trỏ client OpenAI về http://localhost:8000/v1. Định dạng API giống DeepSeek trả phí; Apidog coi như một base URL mới, không cần sửa lại request.

Kiểm tra phần cứng thực tế

Biến thể	Card tối thiểu (FP8)	Card tối thiểu (INT4)	Thông lượng thực tế
V4-Flash	2 × H100 80GB	1 × H100 80GB	50 – 150 tok/s
V4-Pro	16 × H100 80GB	8 × H100 80GB	Phụ thuộc cụm

Nếu không có GPU dư, dùng API rẻ hơn thuê GPU. Tự lưu trữ phù hợp với nhóm đã sẵn hạ tầng hoặc yêu cầu compliance.

Phương pháp 3: Tầng miễn phí OpenRouter

OpenRouter tổng hợp nhiều model (open source, closed) qua một API. Tầng miễn phí thường mở cho DeepSeek chỉ sau 1 tuần ra mắt.

Thiết lập

Đăng ký tại openrouter.ai.
Sinh API key.
Xem danh mục model: deepseek/deepseek-v4-pro hoặc deepseek/deepseek-v4-flash. Model miễn phí có hậu tố :free.
Gọi API bằng SDK OpenAI.

from openai import OpenAI

client = OpenAI(
    api_key=OPENROUTER_KEY,
    base_url="https://openrouter.ai/api/v1",
)

response = client.chat.completions.create(
    model="deepseek/deepseek-v4-flash:free",
    messages=[{"role": "user", "content": "Write a Python CLI for semver bumping."}],
)

print(response.choices[0].message.content)

Giới hạn

Thường ~vài trăm request/ngày/key, giảm ưu tiên khi tải cao.
Phù hợp tạo mẫu, không đảm bảo production.

Phương pháp 4: Nhà cung cấp suy luận Hugging Face

Hugging Face host endpoint inference cho các checkpoint V4. Miễn phí, nhưng tốc độ thấp, rate limit chặt.

from huggingface_hub import InferenceClient

client = InferenceClient(model="deepseek-ai/DeepSeek-V4-Flash")

response = client.chat_completion(
    messages=[{"role": "user", "content": "Summarize the V4 technical report in 5 bullets."}],
    max_tokens=512,
)

print(response.choices[0].message.content)

Miễn phí token HF, vượt quota thì upgrade lên HF Pro (giá vẫn rẻ hơn API chính thức).

Phương pháp 5: Tín dụng thử Colab, Kaggle, RunPod, Lambda

Các provider GPU lớn đều cho tín dụng thử miễn phí. Sử dụng hợp lý có thể đủ chạy vài lần V4-Flash.

Google Colab: Tầng T4 miễn phí quá nhỏ. Colab Pro+ có 500 compute units/tháng, chạy thử V4-Flash trên A100.
Kaggle: Giờ GPU miễn phí T4/P100, chỉ đủ cho V4-Flash lượng tử hóa.
RunPod: $10 tín dụng thử, chạy H100 vài giờ (benchmark, test).
Lambda: Thỉnh thoảng có giờ miễn phí H100/H200 (theo dõi đăng ký).

Không dài hạn. Chỉ phù hợp một vài lần thử nghiệm.

Xây dựng bộ sưu tập Apidog không phụ thuộc provider

Bạn có thể kiểm thử cùng prompt trên mọi backend miễn phí/trả phí mà không cần lặp lại request.

Quy trình:

Tải Apidog.
Tạo collection với 4 môi trường: chat (placeholder), deepseek (https://api.deepseek.com/v1), openrouter (https://openrouter.ai/api/v1), self-hosted (http://localhost:8000/v1).
Lưu một request POST đến {{BASE_URL}}/chat/completions.
Lưu API key từng provider bằng biến secret, phần body giữ nguyên.
Chuyển môi trường để A/B prompt trên mọi backend.

Mẫu tương tự bộ sưu tập tầng miễn phí GPT-5.5: một công cụ, nhiều provider, không lặp lại thao tác.

Nên chọn phương pháp miễn phí nào?

Muốn thử nhanh 5 phút: Dùng chat.deepseek.com.
Muốn tạo mẫu sản phẩm: Dùng tầng miễn phí OpenRouter tới khi hết quota, sau đó nạp tiền DeepSeek.
Có GPU, cần compliance: Tự lưu trữ V4-Flash với vLLM.
Cần xài miễn phí dài hạn: Không có. Tất cả tầng miễn phí đều giới hạn. Kết hợp chat.deepseek.com cho tác vụ tương tác + nạp tiền nhỏ cho automation.

Khi nào nên ngừng dùng miễn phí?

Ba dấu hiệu bạn nên chuyển sang trả phí:

Bị rate limit nhiều lần/ngày → Khối lượng đủ lớn để lên kế hoạch ngân sách.
Cần SLA → Miễn phí không có SLA, API chính thức thì có.
Cần logging/audit/compliance → API trả phí có hóa đơn, bản ghi rõ ràng; tầng miễn phí thường không.

Khi gặp bất kỳ dấu hiệu nào, hãy chuyển sang API chính thức. Nạp tiền tối thiểu $2, giá/token thấp nhất trong các pioneer tier.

Câu hỏi thường gặp

chat.deepseek.com có thực sự miễn phí không?

Có. Không cần thẻ tín dụng, không có trial. Có thể giảm tốc độ, nhưng không bị paywall.

Cần tài khoản Hugging Face để tải trọng số không?

Về kỹ thuật là không (repo public), thực tế nên có tài khoản để tăng giới hạn tải xuống.

Phương pháp miễn phí nào chạy full V4-Pro?

chat.deepseek.com chạy V4-Pro đầy đủ. OpenRouter miễn phí thường chỉ V4-Flash. Muốn đầu ra V4-Pro miễn phí, chỉ nên dùng webchat.

Có thể đặt tầng miễn phí phía sau sản phẩm không?

Không nên. Tầng miễn phí bị rate limit, thay đổi điều khoản hoặc biến mất. Nếu build cho khách hàng, hãy dùng API trả phí hoặc tự host.

Tự lưu trữ có thực sự miễn phí không?

Giấy phép miễn phí, phần cứng thì không. Nếu đã có GPU trống, chỉ tốn điện. Thuê GPU thường không kinh tế bằng API trả phí.

Apidog có tầng miễn phí thử nghiệm không?

Apidog miễn phí cho thiết kế, test API; chỉ mất phí khi gọi API trả phí qua nó. Bạn có thể dùng workspace Apidog miễn phí kết hợp chat.deepseek.com hoặc OpenRouter để có workflow hoàn toàn miễn phí.

DEV Community

Cách Sử Dụng DeepSeek V4 Miễn Phí

Tóm tắt

Phương pháp 1: chat.deepseek.com (cách nhanh nhất và mặc định)

Thiết lập

Tính năng

Giới hạn

Phương pháp 2: Tự lưu trữ V4-Flash trên GPU riêng

Tải trọng số

Phục vụ với vLLM

Kiểm tra phần cứng thực tế

Phương pháp 3: Tầng miễn phí OpenRouter

Thiết lập

Giới hạn

Phương pháp 4: Nhà cung cấp suy luận Hugging Face

Phương pháp 5: Tín dụng thử Colab, Kaggle, RunPod, Lambda

Xây dựng bộ sưu tập Apidog không phụ thuộc provider

Nên chọn phương pháp miễn phí nào?

Khi nào nên ngừng dùng miễn phí?

Câu hỏi thường gặp

Top comments (0)