Gemma 4 12B là mô hình open-weights được cấp phép Apache 2.0, nên bạn có thể tải về và chạy miễn phí trên máy của mình. Không cần trả phí API hay đăng ký dịch vụ. Chi phí thực tế chỉ là phần cứng bạn dùng để chạy mô hình.
Một điểm cần phân biệt: Gemma 4 12B được tối ưu cho chạy cục bộ và trên thiết bị. Các bản lớn hơn như 31B và 26B là những bản Google cung cấp để chat miễn phí trong AI Studio. Điểm mạnh của bản 12B là có thể chạy trên laptop 16GB, phù hợp cho developer muốn có LLM cục bộ để thử nghiệm, tích hợp API hoặc xây dựng prototype. Nếu bạn mới bắt đầu, xem thêm bài Gemma 4 12B là gì để nắm thông số kỹ thuật.
Bài viết này hướng dẫn 6 cách chạy Gemma 4 12B miễn phí, từ demo trên trình duyệt đến API cục bộ tương thích OpenAI.
Tóm tắt nhanh
| Phương pháp | Bạn nhận được gì | Phù hợp nhất cho |
|---|---|---|
| Hugging Face Space | Chat trên trình duyệt, không cần cài đặt | Thử nhanh trong 1 phút |
| Ollama | Mô hình cục bộ + API tương thích OpenAI | Developer muốn setup nhanh |
| LM Studio | App desktop có GUI | Không muốn dùng terminal |
| llama.cpp | Server API cục bộ nhẹ | Máy yếu, setup tối giản |
| HF Transformers | Python, kiểm soát đầy đủ, dùng được Colab | Notebook, thử nghiệm, tinh chỉnh |
| Google AI Edge | Chạy trên thiết bị và mobile | App offline, edge device |
Phương pháp 1: Thử ngay trên trình duyệt với Hugging Face Space
Cách nhanh nhất để kiểm tra Gemma 4 12B là dùng demo chính thức trên Hugging Face Space. Bạn không cần cài đặt, không cần GPU và không cần tài khoản.
Các bước:
- Mở Gemma 4 12B demo Space
- Nhập prompt văn bản, hoặc tải lên hình ảnh/âm thanh
- Xem phản hồi của mô hình
Cách này phù hợp để test nhanh khả năng trả lời và đa phương thức. Khi cần tích hợp vào app hoặc gọi qua API, hãy chuyển sang các phương pháp cục bộ bên dưới.
Phương pháp 2: Chạy Gemma 4 12B bằng Ollama
Ollama là cách đơn giản nhất để chạy Gemma 4 12B cục bộ và có ngay API tương thích OpenAI.
Cài đặt Ollama
Trên macOS hoặc Linux:
curl -fsSL https://ollama.com/install.sh | sh
Trên Windows, tải installer từ ollama.com và chạy như ứng dụng bình thường.
Tải và chạy mô hình
ollama pull gemma4:12b
ollama run gemma4:12b
Lệnh đầu tiên tải mô hình về máy. Theo mặc định, Ollama dùng bản 4-bit Q4_K_M, khoảng 8GB. Lệnh thứ hai mở phiên chat tương tác trong terminal.
Để thoát:
/bye
Gọi API cục bộ
Ollama expose REST API tại:
http://localhost:11434
Ví dụ gọi endpoint tương thích OpenAI:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Giải thích cách transformers hoạt động trong hai câu."
}
]
}'
Vì endpoint dùng format tương thích OpenAI, bạn có thể đổi base_url trong SDK hoặc tool hiện có sang:
http://localhost:11434/v1
Ví dụ nếu app của bạn đang dùng OpenAI SDK, bạn chỉ cần đổi base URL và model name. Cách setup này tương tự hướng dẫn sử dụng DeepSeek V4 trong Cursor, nhưng thay model bằng:
gemma4:12b
Một số lệnh Ollama hữu ích:
ollama list
ollama ps
ollama show gemma4:12b
-
ollama list: liệt kê model đã tải -
ollama ps: xem model đang chạy -
ollama show gemma4:12b: xem thông tin model
Phương pháp 3: Chạy bằng LM Studio nếu không muốn dùng terminal
Nếu bạn muốn giao diện đồ họa, LM Studio là lựa chọn dễ dùng trên Windows, macOS và Linux.
Các bước:
- Tải và cài đặt LM Studio
- Mở tab model catalog
- Tìm
Gemma 4 12B - Chọn bản quantization phù hợp với RAM/VRAM
- Tải model về
- Mở tab chat và bắt đầu prompt
LM Studio cũng có thể chạy local server với endpoint tương thích OpenAI, thường ở cổng:
http://localhost:1234/v1
Cách này phù hợp nếu bạn muốn vừa chat thử bằng GUI, vừa có API cục bộ để tích hợp nhanh vào app.
Phương pháp 4: Chạy nhẹ hơn với llama.cpp
llama.cpp chạy các model GGUF với ít phụ thuộc và có sẵn server tương thích OpenAI.
Cài đặt
Trên macOS:
brew install llama.cpp
Trên Windows:
winget install llama.cpp
Khởi động server
Duyệt bộ sưu tập ggml-org/gemma-4 trên Hugging Face để lấy đúng repo GGUF của bản 12B. Sau đó chạy:
llama-server -hf ggml-org/gemma-4-12B-it-GGUF
Server sẽ expose API tại:
http://localhost:8080/v1
Dùng llama.cpp khi bạn muốn:
- Ít dependency nhất có thể
- Tối ưu tài nguyên
- Có nhiều quyền kiểm soát hơn qua flags
- Chạy trên phần cứng khiêm tốn
Phương pháp 5: Dùng Hugging Face Transformers trong Python
Nếu bạn cần notebook, script Python hoặc muốn kiểm soát pipeline inference, hãy chạy Gemma 4 12B bằng Hugging Face Transformers. Nếu không có GPU cục bộ, bạn có thể dùng Google Colab miễn phí.
Cài thư viện
pip install transformers torch accelerate torchvision
pip install librosa
librosa cần thiết nếu bạn muốn xử lý đầu vào âm thanh.
Chạy inference
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
messages = [
{"role": "system", "content": "Bạn là một trợ lý hữu ích."},
{"role": "user", "content": "Viết một câu chuyện cười ngắn về việc tiết kiệm RAM."},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(
**inputs,
max_new_tokens=1024
)
response = processor.decode(
outputs[0][input_len:],
skip_special_tokens=False
)
print(processor.parse_response(response))
Nếu cần suy luận nhiều bước, bật:
enable_thinking=True
Để thêm input hình ảnh hoặc âm thanh, dùng content list với các phần tử như:
{"type": "image", ...}
{"type": "audio", ...}
Theo hướng dẫn, nội dung hình ảnh nên đặt trước prompt văn bản, còn nội dung âm thanh đặt sau đó. Xem thêm mẫu đầy đủ trong hướng dẫn dành cho nhà phát triển.
Phương pháp 6: Chạy trên thiết bị với Google AI Edge
Nếu mục tiêu là mobile, app offline hoặc edge device, dùng bộ công cụ Google AI Edge. Google AI Edge Gallery và CLI LiteRT-LM đều hỗ trợ chạy Gemma 4 12B trên thiết bị.
Ví dụ tạo local server bằng LiteRT-LM:
litert-lm import \
--from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve
Cách này phù hợp cho các ứng dụng cần dữ liệu ở lại trên thiết bị, chẳng hạn trợ lý offline hoặc app nhúng.
Kiểm tra API Gemma 4 12B cục bộ bằng Apidog
Khi chạy Gemma 4 12B qua Ollama hoặc llama.cpp, bạn có một HTTP API thật trên máy local. Trước khi đưa vào app, nên test request/response bằng API client để kiểm tra payload, schema và streaming. Apidog là một lựa chọn phù hợp cho bước này.
Thiết lập nhanh với Ollama:
- Tải Apidog và tạo project HTTP mới
- Tạo request
POST - Đặt URL:
http://localhost:11434/v1/chat/completions
- Chọn body dạng JSON
- Dán payload mẫu:
{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Trả về một đối tượng JSON với hai trường: thành phố và quốc gia."
}
],
"stream": false
}
- Gửi request và kiểm tra response
- Lưu base URL thành environment variable để chuyển nhanh giữa Ollama và llama.cpp:
http://localhost:11434/v1
http://localhost:8080/v1
- Thêm assertion để xác nhận trường
contentchứa JSON hợp lệ - Đổi sang streaming để kiểm tra luồng token:
{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Viết một đoạn ngắn về API testing."
}
],
"stream": true
}
Lợi ích của việc test trước trong Apidog: bạn phát hiện lỗi prompt, sai field, sai model name hoặc response không đúng format trước khi lỗi đó đi sâu vào code ứng dụng.
Nếu bạn đang so sánh công cụ API client, xem thêm danh sách các công cụ kiểm tra API trực tuyến miễn phí, các lựa chọn thay thế Postman tốt nhất, hoặc workflow kiểm tra API với Postman.
Chọn quantization nào?
Gemma 4 12B có thể chạy trên nhiều loại máy tùy theo mức nén.
| Bản dựng | Bộ nhớ cần thiết | Đánh đổi |
|---|---|---|
| Độ chính xác đầy đủ | ~16GB | Chất lượng tốt nhất |
| 8-bit | ~14GB | Gần chất lượng đầy đủ |
| 4-bit Q4_K_M | ~8GB | Giảm nhẹ chất lượng, dễ chạy hơn |
Gợi ý thực tế:
- Nếu máy có GPU 8GB hoặc MacBook 16GB: bắt đầu với 4-bit
- Nếu có nhiều VRAM/RAM hơn: thử 8-bit để cải thiện chất lượng
- Nếu model bị swap sang disk: giảm quantization hoặc dùng backend nhẹ hơn như llama.cpp
Ollama mặc định dùng bản 4-bit, nên đây là lựa chọn an toàn cho hầu hết developer.
Nên chọn phương pháp nào?
Dùng cây quyết định này:
- Chỉ muốn thử nhanh? Dùng Hugging Face Space
- Đang build app? Dùng Ollama để có API local trong vài lệnh
- Không muốn dùng terminal? Dùng LM Studio
- Cần setup nhẹ nhất? Dùng llama.cpp
- Cần Python notebook hoặc tinh chỉnh? Dùng Transformers
- Cần chạy trên điện thoại hoặc edge device? Dùng Google AI Edge
Với đa số developer, lựa chọn thực tế nhất là:
- Dùng Ollama cho local API hằng ngày
- Dùng Apidog để test request/response
- Dùng Transformers khi cần kiểm soát sâu hơn hoặc chạy notebook
Mẹo chạy Gemma 4 12B cục bộ hiệu quả hơn
- Chọn quantization theo RAM/VRAM. Nếu thiếu bộ nhớ, model sẽ chậm do swap.
-
Bật
enable_thinking=Truecho bài toán khó. Tắt khi cần phản hồi nhanh. - Theo dõi context window. Cửa sổ 256K lớn, nhưng log dài hoặc codebase lớn vẫn có thể làm đầy.
- Test API trước khi tích hợp. Dùng Apidog để kiểm tra JSON, streaming và response shape.
- Giữ endpoint tương thích OpenAI. Điều này giúp bạn đổi model mà không phải viết lại toàn bộ client.
- So sánh với model khác khi cần. Workflow local tương tự cũng áp dụng cho Qwen 3.7, MiniMax M3 và Claude Opus 4.8.
Câu hỏi thường gặp
Gemma 4 12B có thực sự miễn phí không?
Có. Đây là mô hình open-weights được cấp phép Apache 2.0, miễn phí tải xuống và chạy, kể cả cho mục đích thương mại. Bạn chỉ trả chi phí phần cứng hoặc cloud nếu dùng cloud.
Tôi có cần GPU không?
Không bắt buộc, nhưng GPU giúp chạy nhanh hơn nhiều. Bản 4-bit có thể chạy trên GPU 8GB hoặc máy Mac có bộ nhớ hợp nhất 16GB. Chạy CPU-only vẫn được nhưng chậm.
Tôi có thể dùng Gemma 4 12B trong Google AI Studio không?
Hiện tại không. AI Studio cung cấp các bản 31B và 26B để chat miễn phí trên trình duyệt. Bản 12B được thiết kế cho chạy cục bộ và trên thiết bị.
API cục bộ có cần API key không?
Không. Ollama và llama.cpp phục vụ model trên localhost mà không cần key. Nếu một SDK bắt buộc truyền API key, bạn có thể dùng chuỗi placeholder.
Tôi có thể dùng code OpenAI hiện có không?
Có. Ollama và llama.cpp cung cấp endpoint tương thích OpenAI. Chỉ cần đổi base URL:
http://localhost:11434/v1
hoặc:
http://localhost:8080/v1
Sau đó đổi model name sang:
gemma4:12b
Làm sao chạy input hình ảnh và âm thanh?
Dùng Transformers, LM Studio hoặc Google AI Edge. Với Transformers, thêm content dạng image trước prompt văn bản và content dạng audio sau đó.
Ollama hay llama.cpp nhanh hơn?
Cả hai dùng cùng nền tảng kỹ thuật liên quan. llama.cpp nhẹ hơn và có nhiều tuỳ chỉnh hơn. Ollama dễ cài và dễ dùng hơn. Với hầu hết use case, khác biệt không lớn bằng việc chọn đúng quantization và phần cứng.




Top comments (0)