Sebastian Petrus

Posted on Jun 4 • Originally published at apidog.com

6 Cách Sử Dụng Gemma 4 12B Miễn Phí Hiệu Quả Năm 2026

Gemma 4 12B là mô hình open-weights được cấp phép Apache 2.0, nên bạn có thể tải về và chạy miễn phí trên máy của mình. Không cần trả phí API hay đăng ký dịch vụ. Chi phí thực tế chỉ là phần cứng bạn dùng để chạy mô hình.

Dùng thử Apidog ngay hôm nay

Một điểm cần phân biệt: Gemma 4 12B được tối ưu cho chạy cục bộ và trên thiết bị. Các bản lớn hơn như 31B và 26B là những bản Google cung cấp để chat miễn phí trong AI Studio. Điểm mạnh của bản 12B là có thể chạy trên laptop 16GB, phù hợp cho developer muốn có LLM cục bộ để thử nghiệm, tích hợp API hoặc xây dựng prototype. Nếu bạn mới bắt đầu, xem thêm bài Gemma 4 12B là gì để nắm thông số kỹ thuật.

Bài viết này hướng dẫn 6 cách chạy Gemma 4 12B miễn phí, từ demo trên trình duyệt đến API cục bộ tương thích OpenAI.

Tóm tắt nhanh

Phương pháp	Bạn nhận được gì	Phù hợp nhất cho
Hugging Face Space	Chat trên trình duyệt, không cần cài đặt	Thử nhanh trong 1 phút
Ollama	Mô hình cục bộ + API tương thích OpenAI	Developer muốn setup nhanh
LM Studio	App desktop có GUI	Không muốn dùng terminal
llama.cpp	Server API cục bộ nhẹ	Máy yếu, setup tối giản
HF Transformers	Python, kiểm soát đầy đủ, dùng được Colab	Notebook, thử nghiệm, tinh chỉnh
Google AI Edge	Chạy trên thiết bị và mobile	App offline, edge device

Phương pháp 1: Thử ngay trên trình duyệt với Hugging Face Space

Cách nhanh nhất để kiểm tra Gemma 4 12B là dùng demo chính thức trên Hugging Face Space. Bạn không cần cài đặt, không cần GPU và không cần tài khoản.

Các bước:

Mở Gemma 4 12B demo Space
Nhập prompt văn bản, hoặc tải lên hình ảnh/âm thanh
Xem phản hồi của mô hình

Cách này phù hợp để test nhanh khả năng trả lời và đa phương thức. Khi cần tích hợp vào app hoặc gọi qua API, hãy chuyển sang các phương pháp cục bộ bên dưới.

Phương pháp 2: Chạy Gemma 4 12B bằng Ollama

Ollama là cách đơn giản nhất để chạy Gemma 4 12B cục bộ và có ngay API tương thích OpenAI.

Cài đặt Ollama

Trên macOS hoặc Linux:

curl -fsSL https://ollama.com/install.sh | sh

Trên Windows, tải installer từ ollama.com và chạy như ứng dụng bình thường.

Tải và chạy mô hình

ollama pull gemma4:12b
ollama run gemma4:12b

Lệnh đầu tiên tải mô hình về máy. Theo mặc định, Ollama dùng bản 4-bit Q4_K_M, khoảng 8GB. Lệnh thứ hai mở phiên chat tương tác trong terminal.

Để thoát:

/bye

Gọi API cục bộ

Ollama expose REST API tại:

http://localhost:11434

Ví dụ gọi endpoint tương thích OpenAI:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {
        "role": "user",
        "content": "Giải thích cách transformers hoạt động trong hai câu."
      }
    ]
  }'

Vì endpoint dùng format tương thích OpenAI, bạn có thể đổi base_url trong SDK hoặc tool hiện có sang:

http://localhost:11434/v1

Ví dụ nếu app của bạn đang dùng OpenAI SDK, bạn chỉ cần đổi base URL và model name. Cách setup này tương tự hướng dẫn sử dụng DeepSeek V4 trong Cursor, nhưng thay model bằng:

gemma4:12b

Một số lệnh Ollama hữu ích:

ollama list
ollama ps
ollama show gemma4:12b

ollama list: liệt kê model đã tải
ollama ps: xem model đang chạy
ollama show gemma4:12b: xem thông tin model

Phương pháp 3: Chạy bằng LM Studio nếu không muốn dùng terminal

Nếu bạn muốn giao diện đồ họa, LM Studio là lựa chọn dễ dùng trên Windows, macOS và Linux.

Các bước:

Tải và cài đặt LM Studio
Mở tab model catalog
Tìm Gemma 4 12B
Chọn bản quantization phù hợp với RAM/VRAM
Tải model về
Mở tab chat và bắt đầu prompt

LM Studio cũng có thể chạy local server với endpoint tương thích OpenAI, thường ở cổng:

http://localhost:1234/v1

Cách này phù hợp nếu bạn muốn vừa chat thử bằng GUI, vừa có API cục bộ để tích hợp nhanh vào app.

Phương pháp 4: Chạy nhẹ hơn với llama.cpp

llama.cpp chạy các model GGUF với ít phụ thuộc và có sẵn server tương thích OpenAI.

Cài đặt

Trên macOS:

brew install llama.cpp

Trên Windows:

winget install llama.cpp

Khởi động server

Duyệt bộ sưu tập ggml-org/gemma-4 trên Hugging Face để lấy đúng repo GGUF của bản 12B. Sau đó chạy:

llama-server -hf ggml-org/gemma-4-12B-it-GGUF

Server sẽ expose API tại:

http://localhost:8080/v1

Dùng llama.cpp khi bạn muốn:

Ít dependency nhất có thể
Tối ưu tài nguyên
Có nhiều quyền kiểm soát hơn qua flags
Chạy trên phần cứng khiêm tốn

Phương pháp 5: Dùng Hugging Face Transformers trong Python

Nếu bạn cần notebook, script Python hoặc muốn kiểm soát pipeline inference, hãy chạy Gemma 4 12B bằng Hugging Face Transformers. Nếu không có GPU cục bộ, bạn có thể dùng Google Colab miễn phí.

Cài thư viện

pip install transformers torch accelerate torchvision
pip install librosa

librosa cần thiết nếu bạn muốn xử lý đầu vào âm thanh.

Chạy inference

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "Bạn là một trợ lý hữu ích."},
    {"role": "user", "content": "Viết một câu chuyện cười ngắn về việc tiết kiệm RAM."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]

outputs = model.generate(
    **inputs,
    max_new_tokens=1024
)

response = processor.decode(
    outputs[0][input_len:],
    skip_special_tokens=False
)

print(processor.parse_response(response))

Nếu cần suy luận nhiều bước, bật:

enable_thinking=True

Để thêm input hình ảnh hoặc âm thanh, dùng content list với các phần tử như:

{"type": "image", ...}
{"type": "audio", ...}

Theo hướng dẫn, nội dung hình ảnh nên đặt trước prompt văn bản, còn nội dung âm thanh đặt sau đó. Xem thêm mẫu đầy đủ trong hướng dẫn dành cho nhà phát triển.

Phương pháp 6: Chạy trên thiết bị với Google AI Edge

Nếu mục tiêu là mobile, app offline hoặc edge device, dùng bộ công cụ Google AI Edge. Google AI Edge Gallery và CLI LiteRT-LM đều hỗ trợ chạy Gemma 4 12B trên thiết bị.

Ví dụ tạo local server bằng LiteRT-LM:

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b

litert-lm serve

Cách này phù hợp cho các ứng dụng cần dữ liệu ở lại trên thiết bị, chẳng hạn trợ lý offline hoặc app nhúng.

Kiểm tra API Gemma 4 12B cục bộ bằng Apidog

Khi chạy Gemma 4 12B qua Ollama hoặc llama.cpp, bạn có một HTTP API thật trên máy local. Trước khi đưa vào app, nên test request/response bằng API client để kiểm tra payload, schema và streaming. Apidog là một lựa chọn phù hợp cho bước này.

Thiết lập nhanh với Ollama:

Tải Apidog và tạo project HTTP mới
Tạo request POST
Đặt URL:

http://localhost:11434/v1/chat/completions

Chọn body dạng JSON
Dán payload mẫu:

{
  "model": "gemma4:12b",
  "messages": [
    {
      "role": "user",
      "content": "Trả về một đối tượng JSON với hai trường: thành phố và quốc gia."
    }
  ],
  "stream": false
}

Gửi request và kiểm tra response
Lưu base URL thành environment variable để chuyển nhanh giữa Ollama và llama.cpp:

http://localhost:11434/v1
http://localhost:8080/v1

Thêm assertion để xác nhận trường content chứa JSON hợp lệ
Đổi sang streaming để kiểm tra luồng token:

{
  "model": "gemma4:12b",
  "messages": [
    {
      "role": "user",
      "content": "Viết một đoạn ngắn về API testing."
    }
  ],
  "stream": true
}

Lợi ích của việc test trước trong Apidog: bạn phát hiện lỗi prompt, sai field, sai model name hoặc response không đúng format trước khi lỗi đó đi sâu vào code ứng dụng.

Nếu bạn đang so sánh công cụ API client, xem thêm danh sách các công cụ kiểm tra API trực tuyến miễn phí, các lựa chọn thay thế Postman tốt nhất, hoặc workflow kiểm tra API với Postman.

Chọn quantization nào?

Gemma 4 12B có thể chạy trên nhiều loại máy tùy theo mức nén.

Bản dựng	Bộ nhớ cần thiết	Đánh đổi
Độ chính xác đầy đủ	~16GB	Chất lượng tốt nhất
8-bit	~14GB	Gần chất lượng đầy đủ
4-bit Q4_K_M	~8GB	Giảm nhẹ chất lượng, dễ chạy hơn

Gợi ý thực tế:

Nếu máy có GPU 8GB hoặc MacBook 16GB: bắt đầu với 4-bit
Nếu có nhiều VRAM/RAM hơn: thử 8-bit để cải thiện chất lượng
Nếu model bị swap sang disk: giảm quantization hoặc dùng backend nhẹ hơn như llama.cpp

Ollama mặc định dùng bản 4-bit, nên đây là lựa chọn an toàn cho hầu hết developer.

Nên chọn phương pháp nào?

Dùng cây quyết định này:

Chỉ muốn thử nhanh? Dùng Hugging Face Space
Đang build app? Dùng Ollama để có API local trong vài lệnh
Không muốn dùng terminal? Dùng LM Studio
Cần setup nhẹ nhất? Dùng llama.cpp
Cần Python notebook hoặc tinh chỉnh? Dùng Transformers
Cần chạy trên điện thoại hoặc edge device? Dùng Google AI Edge

Với đa số developer, lựa chọn thực tế nhất là:

Dùng Ollama cho local API hằng ngày
Dùng Apidog để test request/response
Dùng Transformers khi cần kiểm soát sâu hơn hoặc chạy notebook

Mẹo chạy Gemma 4 12B cục bộ hiệu quả hơn

Chọn quantization theo RAM/VRAM. Nếu thiếu bộ nhớ, model sẽ chậm do swap.
Bật enable_thinking=True cho bài toán khó. Tắt khi cần phản hồi nhanh.
Theo dõi context window. Cửa sổ 256K lớn, nhưng log dài hoặc codebase lớn vẫn có thể làm đầy.
Test API trước khi tích hợp. Dùng Apidog để kiểm tra JSON, streaming và response shape.
Giữ endpoint tương thích OpenAI. Điều này giúp bạn đổi model mà không phải viết lại toàn bộ client.
So sánh với model khác khi cần. Workflow local tương tự cũng áp dụng cho Qwen 3.7, MiniMax M3 và Claude Opus 4.8.

Câu hỏi thường gặp

Gemma 4 12B có thực sự miễn phí không?

Có. Đây là mô hình open-weights được cấp phép Apache 2.0, miễn phí tải xuống và chạy, kể cả cho mục đích thương mại. Bạn chỉ trả chi phí phần cứng hoặc cloud nếu dùng cloud.

Tôi có cần GPU không?

Không bắt buộc, nhưng GPU giúp chạy nhanh hơn nhiều. Bản 4-bit có thể chạy trên GPU 8GB hoặc máy Mac có bộ nhớ hợp nhất 16GB. Chạy CPU-only vẫn được nhưng chậm.

Tôi có thể dùng Gemma 4 12B trong Google AI Studio không?

Hiện tại không. AI Studio cung cấp các bản 31B và 26B để chat miễn phí trên trình duyệt. Bản 12B được thiết kế cho chạy cục bộ và trên thiết bị.

API cục bộ có cần API key không?

Không. Ollama và llama.cpp phục vụ model trên localhost mà không cần key. Nếu một SDK bắt buộc truyền API key, bạn có thể dùng chuỗi placeholder.

Tôi có thể dùng code OpenAI hiện có không?

Có. Ollama và llama.cpp cung cấp endpoint tương thích OpenAI. Chỉ cần đổi base URL:

http://localhost:11434/v1

hoặc:

http://localhost:8080/v1

Sau đó đổi model name sang:

gemma4:12b

Làm sao chạy input hình ảnh và âm thanh?

Dùng Transformers, LM Studio hoặc Google AI Edge. Với Transformers, thêm content dạng image trước prompt văn bản và content dạng audio sau đó.

Ollama hay llama.cpp nhanh hơn?

Cả hai dùng cùng nền tảng kỹ thuật liên quan. llama.cpp nhẹ hơn và có nhiều tuỳ chỉnh hơn. Ollama dễ cài và dễ dùng hơn. Với hầu hết use case, khác biệt không lớn bằng việc chọn đúng quantization và phần cứng.

DEV Community