DEV Community

Cover image for 6 Cách Sử Dụng Gemma 4 12B Miễn Phí Hiệu Quả Năm 2026
Sebastian Petrus
Sebastian Petrus

Posted on • Originally published at apidog.com

6 Cách Sử Dụng Gemma 4 12B Miễn Phí Hiệu Quả Năm 2026

Gemma 4 12B là mô hình open-weights được cấp phép Apache 2.0, nên bạn có thể tải về và chạy miễn phí trên máy của mình. Không cần trả phí API hay đăng ký dịch vụ. Chi phí thực tế chỉ là phần cứng bạn dùng để chạy mô hình.

Dùng thử Apidog ngay hôm nay

Một điểm cần phân biệt: Gemma 4 12B được tối ưu cho chạy cục bộ và trên thiết bị. Các bản lớn hơn như 31B và 26B là những bản Google cung cấp để chat miễn phí trong AI Studio. Điểm mạnh của bản 12B là có thể chạy trên laptop 16GB, phù hợp cho developer muốn có LLM cục bộ để thử nghiệm, tích hợp API hoặc xây dựng prototype. Nếu bạn mới bắt đầu, xem thêm bài Gemma 4 12B là gì để nắm thông số kỹ thuật.

Bài viết này hướng dẫn 6 cách chạy Gemma 4 12B miễn phí, từ demo trên trình duyệt đến API cục bộ tương thích OpenAI.

Tóm tắt nhanh

Phương pháp Bạn nhận được gì Phù hợp nhất cho
Hugging Face Space Chat trên trình duyệt, không cần cài đặt Thử nhanh trong 1 phút
Ollama Mô hình cục bộ + API tương thích OpenAI Developer muốn setup nhanh
LM Studio App desktop có GUI Không muốn dùng terminal
llama.cpp Server API cục bộ nhẹ Máy yếu, setup tối giản
HF Transformers Python, kiểm soát đầy đủ, dùng được Colab Notebook, thử nghiệm, tinh chỉnh
Google AI Edge Chạy trên thiết bị và mobile App offline, edge device

Phương pháp 1: Thử ngay trên trình duyệt với Hugging Face Space

Cách nhanh nhất để kiểm tra Gemma 4 12B là dùng demo chính thức trên Hugging Face Space. Bạn không cần cài đặt, không cần GPU và không cần tài khoản.

Các bước:

  1. Mở Gemma 4 12B demo Space
  2. Nhập prompt văn bản, hoặc tải lên hình ảnh/âm thanh
  3. Xem phản hồi của mô hình

Cách này phù hợp để test nhanh khả năng trả lời và đa phương thức. Khi cần tích hợp vào app hoặc gọi qua API, hãy chuyển sang các phương pháp cục bộ bên dưới.

Phương pháp 2: Chạy Gemma 4 12B bằng Ollama

Ollama là cách đơn giản nhất để chạy Gemma 4 12B cục bộ và có ngay API tương thích OpenAI.

Cài đặt Ollama

Trên macOS hoặc Linux:

curl -fsSL https://ollama.com/install.sh | sh
Enter fullscreen mode Exit fullscreen mode

Trên Windows, tải installer từ ollama.com và chạy như ứng dụng bình thường.

Tải và chạy mô hình

ollama pull gemma4:12b
ollama run gemma4:12b
Enter fullscreen mode Exit fullscreen mode

Lệnh đầu tiên tải mô hình về máy. Theo mặc định, Ollama dùng bản 4-bit Q4_K_M, khoảng 8GB. Lệnh thứ hai mở phiên chat tương tác trong terminal.

Để thoát:

/bye
Enter fullscreen mode Exit fullscreen mode

Gọi API cục bộ

Ollama expose REST API tại:

http://localhost:11434
Enter fullscreen mode Exit fullscreen mode

Ví dụ gọi endpoint tương thích OpenAI:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {
        "role": "user",
        "content": "Giải thích cách transformers hoạt động trong hai câu."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Vì endpoint dùng format tương thích OpenAI, bạn có thể đổi base_url trong SDK hoặc tool hiện có sang:

http://localhost:11434/v1
Enter fullscreen mode Exit fullscreen mode

Ví dụ nếu app của bạn đang dùng OpenAI SDK, bạn chỉ cần đổi base URL và model name. Cách setup này tương tự hướng dẫn sử dụng DeepSeek V4 trong Cursor, nhưng thay model bằng:

gemma4:12b
Enter fullscreen mode Exit fullscreen mode

Một số lệnh Ollama hữu ích:

ollama list
ollama ps
ollama show gemma4:12b
Enter fullscreen mode Exit fullscreen mode
  • ollama list: liệt kê model đã tải
  • ollama ps: xem model đang chạy
  • ollama show gemma4:12b: xem thông tin model

Phương pháp 3: Chạy bằng LM Studio nếu không muốn dùng terminal

Nếu bạn muốn giao diện đồ họa, LM Studio là lựa chọn dễ dùng trên Windows, macOS và Linux.

Các bước:

  1. Tải và cài đặt LM Studio
  2. Mở tab model catalog
  3. Tìm Gemma 4 12B
  4. Chọn bản quantization phù hợp với RAM/VRAM
  5. Tải model về
  6. Mở tab chat và bắt đầu prompt

LM Studio cũng có thể chạy local server với endpoint tương thích OpenAI, thường ở cổng:

http://localhost:1234/v1
Enter fullscreen mode Exit fullscreen mode

Cách này phù hợp nếu bạn muốn vừa chat thử bằng GUI, vừa có API cục bộ để tích hợp nhanh vào app.

Phương pháp 4: Chạy nhẹ hơn với llama.cpp

llama.cpp chạy các model GGUF với ít phụ thuộc và có sẵn server tương thích OpenAI.

Cài đặt

Trên macOS:

brew install llama.cpp
Enter fullscreen mode Exit fullscreen mode

Trên Windows:

winget install llama.cpp
Enter fullscreen mode Exit fullscreen mode

Khởi động server

Duyệt bộ sưu tập ggml-org/gemma-4 trên Hugging Face để lấy đúng repo GGUF của bản 12B. Sau đó chạy:

llama-server -hf ggml-org/gemma-4-12B-it-GGUF
Enter fullscreen mode Exit fullscreen mode

Server sẽ expose API tại:

http://localhost:8080/v1
Enter fullscreen mode Exit fullscreen mode

Dùng llama.cpp khi bạn muốn:

  • Ít dependency nhất có thể
  • Tối ưu tài nguyên
  • Có nhiều quyền kiểm soát hơn qua flags
  • Chạy trên phần cứng khiêm tốn

Phương pháp 5: Dùng Hugging Face Transformers trong Python

Nếu bạn cần notebook, script Python hoặc muốn kiểm soát pipeline inference, hãy chạy Gemma 4 12B bằng Hugging Face Transformers. Nếu không có GPU cục bộ, bạn có thể dùng Google Colab miễn phí.

Cài thư viện

pip install transformers torch accelerate torchvision
pip install librosa
Enter fullscreen mode Exit fullscreen mode

librosa cần thiết nếu bạn muốn xử lý đầu vào âm thanh.

Chạy inference

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "Bạn là một trợ lý hữu ích."},
    {"role": "user", "content": "Viết một câu chuyện cười ngắn về việc tiết kiệm RAM."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]

outputs = model.generate(
    **inputs,
    max_new_tokens=1024
)

response = processor.decode(
    outputs[0][input_len:],
    skip_special_tokens=False
)

print(processor.parse_response(response))
Enter fullscreen mode Exit fullscreen mode

Nếu cần suy luận nhiều bước, bật:

enable_thinking=True
Enter fullscreen mode Exit fullscreen mode

Để thêm input hình ảnh hoặc âm thanh, dùng content list với các phần tử như:

{"type": "image", ...}
{"type": "audio", ...}
Enter fullscreen mode Exit fullscreen mode

Theo hướng dẫn, nội dung hình ảnh nên đặt trước prompt văn bản, còn nội dung âm thanh đặt sau đó. Xem thêm mẫu đầy đủ trong hướng dẫn dành cho nhà phát triển.

Phương pháp 6: Chạy trên thiết bị với Google AI Edge

Nếu mục tiêu là mobile, app offline hoặc edge device, dùng bộ công cụ Google AI Edge. Google AI Edge Gallery và CLI LiteRT-LM đều hỗ trợ chạy Gemma 4 12B trên thiết bị.

Ví dụ tạo local server bằng LiteRT-LM:

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b

litert-lm serve
Enter fullscreen mode Exit fullscreen mode

Cách này phù hợp cho các ứng dụng cần dữ liệu ở lại trên thiết bị, chẳng hạn trợ lý offline hoặc app nhúng.

Kiểm tra API Gemma 4 12B cục bộ bằng Apidog

Khi chạy Gemma 4 12B qua Ollama hoặc llama.cpp, bạn có một HTTP API thật trên máy local. Trước khi đưa vào app, nên test request/response bằng API client để kiểm tra payload, schema và streaming. Apidog là một lựa chọn phù hợp cho bước này.

Thiết lập nhanh với Ollama:

  1. Tải Apidog và tạo project HTTP mới
  2. Tạo request POST
  3. Đặt URL:
http://localhost:11434/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode
  1. Chọn body dạng JSON
  2. Dán payload mẫu:
{
  "model": "gemma4:12b",
  "messages": [
    {
      "role": "user",
      "content": "Trả về một đối tượng JSON với hai trường: thành phố và quốc gia."
    }
  ],
  "stream": false
}
Enter fullscreen mode Exit fullscreen mode
  1. Gửi request và kiểm tra response
  2. Lưu base URL thành environment variable để chuyển nhanh giữa Ollama và llama.cpp:
http://localhost:11434/v1
http://localhost:8080/v1
Enter fullscreen mode Exit fullscreen mode
  1. Thêm assertion để xác nhận trường content chứa JSON hợp lệ
  2. Đổi sang streaming để kiểm tra luồng token:
{
  "model": "gemma4:12b",
  "messages": [
    {
      "role": "user",
      "content": "Viết một đoạn ngắn về API testing."
    }
  ],
  "stream": true
}
Enter fullscreen mode Exit fullscreen mode

Lợi ích của việc test trước trong Apidog: bạn phát hiện lỗi prompt, sai field, sai model name hoặc response không đúng format trước khi lỗi đó đi sâu vào code ứng dụng.

Nếu bạn đang so sánh công cụ API client, xem thêm danh sách các công cụ kiểm tra API trực tuyến miễn phí, các lựa chọn thay thế Postman tốt nhất, hoặc workflow kiểm tra API với Postman.

Chọn quantization nào?

Gemma 4 12B có thể chạy trên nhiều loại máy tùy theo mức nén.

Bản dựng Bộ nhớ cần thiết Đánh đổi
Độ chính xác đầy đủ ~16GB Chất lượng tốt nhất
8-bit ~14GB Gần chất lượng đầy đủ
4-bit Q4_K_M ~8GB Giảm nhẹ chất lượng, dễ chạy hơn

Gợi ý thực tế:

  • Nếu máy có GPU 8GB hoặc MacBook 16GB: bắt đầu với 4-bit
  • Nếu có nhiều VRAM/RAM hơn: thử 8-bit để cải thiện chất lượng
  • Nếu model bị swap sang disk: giảm quantization hoặc dùng backend nhẹ hơn như llama.cpp

Ollama mặc định dùng bản 4-bit, nên đây là lựa chọn an toàn cho hầu hết developer.

Nên chọn phương pháp nào?

Dùng cây quyết định này:

  • Chỉ muốn thử nhanh? Dùng Hugging Face Space
  • Đang build app? Dùng Ollama để có API local trong vài lệnh
  • Không muốn dùng terminal? Dùng LM Studio
  • Cần setup nhẹ nhất? Dùng llama.cpp
  • Cần Python notebook hoặc tinh chỉnh? Dùng Transformers
  • Cần chạy trên điện thoại hoặc edge device? Dùng Google AI Edge

Với đa số developer, lựa chọn thực tế nhất là:

  1. Dùng Ollama cho local API hằng ngày
  2. Dùng Apidog để test request/response
  3. Dùng Transformers khi cần kiểm soát sâu hơn hoặc chạy notebook

Mẹo chạy Gemma 4 12B cục bộ hiệu quả hơn

  • Chọn quantization theo RAM/VRAM. Nếu thiếu bộ nhớ, model sẽ chậm do swap.
  • Bật enable_thinking=True cho bài toán khó. Tắt khi cần phản hồi nhanh.
  • Theo dõi context window. Cửa sổ 256K lớn, nhưng log dài hoặc codebase lớn vẫn có thể làm đầy.
  • Test API trước khi tích hợp. Dùng Apidog để kiểm tra JSON, streaming và response shape.
  • Giữ endpoint tương thích OpenAI. Điều này giúp bạn đổi model mà không phải viết lại toàn bộ client.
  • So sánh với model khác khi cần. Workflow local tương tự cũng áp dụng cho Qwen 3.7, MiniMax M3Claude Opus 4.8.

Câu hỏi thường gặp

Gemma 4 12B có thực sự miễn phí không?

Có. Đây là mô hình open-weights được cấp phép Apache 2.0, miễn phí tải xuống và chạy, kể cả cho mục đích thương mại. Bạn chỉ trả chi phí phần cứng hoặc cloud nếu dùng cloud.

Tôi có cần GPU không?

Không bắt buộc, nhưng GPU giúp chạy nhanh hơn nhiều. Bản 4-bit có thể chạy trên GPU 8GB hoặc máy Mac có bộ nhớ hợp nhất 16GB. Chạy CPU-only vẫn được nhưng chậm.

Tôi có thể dùng Gemma 4 12B trong Google AI Studio không?

Hiện tại không. AI Studio cung cấp các bản 31B và 26B để chat miễn phí trên trình duyệt. Bản 12B được thiết kế cho chạy cục bộ và trên thiết bị.

API cục bộ có cần API key không?

Không. Ollama và llama.cpp phục vụ model trên localhost mà không cần key. Nếu một SDK bắt buộc truyền API key, bạn có thể dùng chuỗi placeholder.

Tôi có thể dùng code OpenAI hiện có không?

Có. Ollama và llama.cpp cung cấp endpoint tương thích OpenAI. Chỉ cần đổi base URL:

http://localhost:11434/v1
Enter fullscreen mode Exit fullscreen mode

hoặc:

http://localhost:8080/v1
Enter fullscreen mode Exit fullscreen mode

Sau đó đổi model name sang:

gemma4:12b
Enter fullscreen mode Exit fullscreen mode

Làm sao chạy input hình ảnh và âm thanh?

Dùng Transformers, LM Studio hoặc Google AI Edge. Với Transformers, thêm content dạng image trước prompt văn bản và content dạng audio sau đó.

Ollama hay llama.cpp nhanh hơn?

Cả hai dùng cùng nền tảng kỹ thuật liên quan. llama.cpp nhẹ hơn và có nhiều tuỳ chỉnh hơn. Ollama dễ cài và dễ dùng hơn. Với hầu hết use case, khác biệt không lớn bằng việc chọn đúng quantization và phần cứng.

Top comments (0)