DEV Community

Cover image for Gemma 4 12B là gì?
Sebastian Petrus
Sebastian Petrus

Posted on • Originally published at apidog.com

Gemma 4 12B là gì?

Google đã phát hành Gemma 4 12B vào ngày 3 tháng 6 năm 2026. Đây là mô hình mã nguồn mở 11,95 tỷ tham số, có thể nhận văn bản, hình ảnh, âm thanh và video làm đầu vào, trả về văn bản, và được thiết kế để chạy trên laptop có 16GB bộ nhớ. Điểm đáng chú ý: đây là mô hình cỡ trung đầu tiên có đầu vào âm thanh gốc và không cần bộ mã hóa hình ảnh hoặc âm thanh riêng biệt.

Dùng thử Apidog hôm nay

Hầu hết mô hình đa phương thức dùng một bộ mã hóa hình ảnh, một bộ mã hóa âm thanh, rồi nối chúng vào mô hình ngôn ngữ. Gemma 4 12B đi theo hướng khác: đưa mảng hình ảnh thô và dạng sóng âm thanh trực tiếp vào mô hình. Kết quả là bạn có một tệp 12B duy nhất xử lý bốn loại đầu vào, có thể chạy ngoại tuyến và được phát hành theo Apache 2.0 cho mục đích thương mại.

Bài viết này tóm tắt vị trí của Gemma 4 12B trong dòng Gemma 4, kiến trúc không bộ mã hóa, yêu cầu phần cứng và cách bạn có thể bắt đầu tích hợp nó vào ứng dụng. Nếu muốn chạy ngay, xem hướng dẫn đi kèm về cách sử dụng Gemma 4 12B miễn phí.

Tổng quan về Gemma 4 12B

Thông số kỹ thuật Giá trị
Phát hành Ngày 3 tháng 6 năm 2026
Tham số 11,95B, mô hình dày đặc
Đầu vào Văn bản, hình ảnh, âm thanh, video
Đầu ra Văn bản
Cửa sổ ngữ cảnh 256K token
Kiến trúc Đa phương thức hợp nhất, không bộ mã hóa
Giấy phép Apache 2.0
Chạy trên 16GB VRAM hoặc bộ nhớ hợp nhất; khoảng 8GB ở 4-bit
Biến thể google/gemma-4-12B, google/gemma-4-12B-it

Câu trả lời ngắn gọn

Gemma 4 12B là mô hình nguồn mở 12B từ Google DeepMind. Nó nhận văn bản, hình ảnh, âm thanh và video làm đầu vào, sau đó sinh văn bản. Mô hình được tối ưu cho chạy cục bộ trên phần cứng tiêu dùng, có cửa sổ ngữ cảnh 256K token, hỗ trợ gọi công cụ gốc và có chế độ suy luận từng bước tùy chọn.

Trong dòng Gemma 4, 12B nằm giữa các mô hình nhỏ chạy tốt trên thiết bị biên và các mô hình lớn hơn như 26B MoE hoặc 31B. Mục tiêu của nó là cung cấp chất lượng gần mô hình lớn hơn nhưng dùng ít bộ nhớ hơn.

Vị trí của 12B trong gia đình Gemma 4

Gemma 4 không ra mắt cùng lúc. Các mô hình E2B, E4B, 26B và 31B ra mắt ngày 31 tháng 3 năm 2026. Gemma 4 12B được bổ sung ngày 3 tháng 6.

Mô hình Kích thước Ngữ cảnh Ghi chú
Gemma 4 E2B 2.3B hiệu quả, 5.1B thô 128K Trên thiết bị, đầu vào âm thanh
Gemma 4 E4B 4.5B hiệu quả, 8B thô 128K Nhỏ gọn, đầu vào âm thanh
Gemma 4 12B 11.95B dày đặc 256K Không bộ mã hóa, đầu vào âm thanh
Gemma 4 26B A4B 4B hoạt động, 26B tổng, MoE 256K Mixture-of-Experts
Gemma 4 31B 31B dày đặc 256K Hiệu suất cao nhất trong dòng

12B là mô hình nổi bật vì dùng thiết kế không bộ mã hóa. Các mô hình khác vẫn giữ bộ mã hóa hình ảnh truyền thống, còn hai mô hình nhỏ hơn có thêm bộ mã hóa âm thanh conformer. Nếu bạn đang xây dựng ứng dụng đa phương thức chạy cục bộ, 12B là biến thể đáng thử trước.

Để xem bối cảnh rộng hơn của các mô hình nguồn mở, bạn có thể đọc thêm bài so sánh MiniMax M3, DeepSeek V4 và Qwen 3.7cuộc chiến giá cả mô hình mã nguồn mở.

“Không bộ mã hóa” nghĩa là gì?

Trong kiến trúc đa phương thức phổ biến:

  1. Bộ mã hóa hình ảnh chuyển ảnh thành embedding.
  2. Bộ mã hóa âm thanh chuyển âm thanh thành embedding.
  3. Một projector ánh xạ embedding đó vào không gian của mô hình ngôn ngữ.

Bạn phải tải, tinh chỉnh và giữ nhiều thành phần trong bộ nhớ.

Gemma 4 12B loại bỏ cách ghép này:

  • Thị giác: dùng một mô-đun embedding nhẹ, gồm một phép nhân ma trận, embedding vị trí và chuẩn hóa, để chiếu mảng hình ảnh thô vào không gian embedding của mô hình.
  • Âm thanh: bỏ bộ mã hóa âm thanh riêng. Âm thanh thô được chiếu vào cùng không gian chiều với token văn bản.

Điều này giúp hình ảnh, âm thanh và văn bản đi qua cùng xương sống mô hình ngôn ngữ. Với developer, lợi ích thực tế là pipeline triển khai đơn giản hơn: một mô hình, một bộ trọng số, một giao diện suy luận.

Hai kỹ thuật khác giúp mô hình phù hợp hơn với phần cứng nhỏ:

  • Per-Layer Embeddings, PLE: mỗi lớp decoder nhận embedding chuyên dụng nhỏ, kết hợp tra cứu định danh token và chiếu nhạy ngữ cảnh.
  • Shared KV cache: một số lớp cuối tái sử dụng tensor key-value từ lớp trước, giảm bộ nhớ khi chạy ngữ cảnh dài.

Google cũng cung cấp bộ soạn thảo Multi-Token Prediction, MTP, cho suy luận suy đoán. Theo công bố, nó có thể tăng tốc suy luận đầu cuối lên tới khoảng 3 lần mà không làm thay đổi chất lượng đầu ra.

Cách nghĩ về input đa phương thức

Gemma 4 12B trả về văn bản trong mọi trường hợp. Khác biệt nằm ở phần input.

Các nhóm tác vụ phù hợp:

  • Văn bản: tóm tắt tài liệu dài, hỏi đáp trên log, phân tích code.
  • Hình ảnh: chú thích ảnh, phát hiện đối tượng, đọc UI/screenshot.
  • Âm thanh: chuyển giọng nói thành văn bản, nhận dạng người nói, hỏi đáp trên âm thanh.
  • Video: hiểu nội dung video kèm âm thanh, không chỉ từng khung hình.

Khi trộn nhiều phương thức, thứ tự input quan trọng. Mẫu chat mong đợi nội dung hình ảnh trước prompt văn bản, còn âm thanh nằm sau đó.

Một prompt triển khai thực tế có thể được tổ chức như sau:

[image: screenshot.png]

Hãy phân tích giao diện trong ảnh. Cho biết:
1. Người dùng đang ở bước nào?
2. Có lỗi validation nào không?
3. Nên hiển thị thông báo gì?

[audio: user-call.wav]
Enter fullscreen mode Exit fullscreen mode

Mô hình vẫn trả về văn bản, ví dụ JSON hoặc Markdown tùy prompt bạn yêu cầu.

Hiệu suất đã công bố

Dưới đây là điểm số đã công bố cho gemma-4-12B-it từ thẻ mô hình trên Hugging Face:

Benchmark Gemma 4 12B-it
MMLU Pro, suy luận 77.2%
AIME 2026, toán học, không công cụ 77.5%
GPQA Diamond, khoa học 78.8%
LiveCodeBench v6, viết mã 72.0%
Codeforces, ELO 1659
MMMU Pro, thị giác 69.1%
MATH-Vision 79.7%
MRCR v2, 128K, 8-kim, ngữ cảnh dài 43.4%

So với các mô hình lân cận trong gia đình Gemma 4:

Benchmark E4B 12B 26B A4B 31B
MMLU Pro 69.4% 77.2% 82.6% 85.2%
AIME 2026 42.5% 77.5% 88.3% 89.2%
GPQA Diamond 58.6% 78.8% 82.3% 84.3%
LiveCodeBench v6 52.0% 72.0% 77.1% 80.0%

Kết luận thực dụng: 12B tốt hơn rõ rệt so với lớp 4B và tiến gần nhóm 26B trong nhiều benchmark, nhưng vẫn có thể chạy trên máy cá nhân 16GB khi dùng lượng tử hóa phù hợp.

Có gì mới so với Gemma 3?

Nếu bạn từng dùng Gemma 3, có bốn điểm cần chú ý:

  1. Âm thanh gốc: Gemma 3 hỗ trợ văn bản và thị giác. Gemma 4 12B bổ sung âm thanh và video có âm thanh.
  2. Không bộ mã hóa: không cần tải thêm bộ mã hóa hình ảnh hoặc âm thanh.
  3. Ngữ cảnh 256K: phù hợp hơn với tài liệu dài, transcript, log và repo nhiều file.
  4. Apache 2.0: giấy phép chuẩn, dễ đánh giá hơn cho mục đích thương mại và phân phối lại.

Bạn có thể xây dựng gì với Gemma 4 12B?

Gemma 4 12B phù hợp nhất với các workflow cần chạy cục bộ hoặc xử lý dữ liệu nhạy cảm.

Một số hướng triển khai:

  • Trợ lý ngoại tuyến: đọc màn hình, nghe micro, không gửi dữ liệu ra ngoài.
  • Công cụ họp cục bộ: chuyển ngữ, phân tách người nói, tóm tắt sau cuộc gọi.
  • Pipeline tài liệu đa phương thức: kết hợp PDF, screenshot, ảnh chụp và audio trong một prompt.
  • Agent nội bộ: dùng function calling và tool use để lập kế hoạch, gọi API, ghi kết quả.
  • Hỗ trợ lập trình cục bộ: autocomplete, refactor, giải thích code, tạo test.

Ví dụ prompt cho trợ lý phân tích bug từ screenshot và log:

Bạn là trợ lý debug.

Input:
- Ảnh chụp màn hình lỗi UI
- Log backend trong 10 phút gần nhất

Yêu cầu:
1. Tóm tắt lỗi bằng 3 gạch đầu dòng.
2. Xác định component hoặc API có khả năng gây lỗi.
3. Đề xuất bước kiểm tra tiếp theo.
4. Trả về JSON theo schema:

{
  "summary": [],
  "suspected_area": "",
  "next_steps": []
}
Enter fullscreen mode Exit fullscreen mode

Nếu runner của bạn expose API cục bộ dạng HTTP, bạn có thể kiểm tra nhanh bằng curl:

curl http://localhost:11434/api/chat \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma-4-12b-it",
    "messages": [
      {
        "role": "user",
        "content": "Tóm tắt log này và trả về JSON: ..."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

Tên model và endpoint phụ thuộc vào runner bạn dùng, ví dụ Ollama, llama.cpp hoặc một server tương thích OpenAI. Điểm quan trọng là giữ output có cấu trúc để ứng dụng dễ xử lý.

Khi kết nối mô hình cục bộ vào app, bạn nên kiểm tra request/response trước khi viết logic production. Với Apidog, bạn có thể lưu endpoint local, gửi prompt mẫu, kiểm tra JSON schema và debug phản hồi. Bạn có thể tải Apidog miễn phí, trỏ nó đến server cục bộ và bắt đầu test trong vài phút. Xem thêm hướng dẫn sử dụng miễn phí.

Kiểm tra API cục bộ trước khi tích hợp

Một workflow tối thiểu cho developer:

  1. Chạy model bằng runner bạn chọn.
  2. Xác định endpoint chat local.
  3. Gửi prompt văn bản đơn giản.
  4. Thêm ảnh hoặc audio nếu runner hỗ trợ.
  5. Ép output về JSON.
  6. Validate JSON trước khi gọi logic tiếp theo.

Ví dụ schema mong muốn:

{
  "type": "object",
  "required": ["transcript", "speakers", "summary"],
  "properties": {
    "transcript": {
      "type": "string"
    },
    "speakers": {
      "type": "array",
      "items": {
        "type": "string"
      }
    },
    "summary": {
      "type": "array",
      "items": {
        "type": "string"
      }
    }
  }
}
Enter fullscreen mode Exit fullscreen mode

Prompt để yêu cầu output theo schema:

Hãy phân tích file âm thanh cuộc họp.

Trả về JSON hợp lệ, không thêm Markdown.

Schema:
{
  "transcript": "string",
  "speakers": ["string"],
  "summary": ["string"]
}
Enter fullscreen mode Exit fullscreen mode

Cách này giúp bạn tránh lỗi phổ biến khi tích hợp LLM: output trông đúng với người đọc nhưng không parse được trong code.

Giấy phép Apache 2.0 có ý nghĩa gì?

Gemma 4 12B được phát hành theo Apache 2.0. Về mặt thực tế:

  • Bạn có thể dùng cho mục đích thương mại.
  • Bạn có thể sửa đổi, tinh chỉnh và phân phối lại.
  • Bạn có thể chạy trong sản phẩm mã nguồn đóng.
  • Bạn giữ quyền sở hữu output của mình.

Đây là thay đổi đáng kể so với giấy phép Gemma trước đây, vốn đi kèm điều khoản sử dụng riêng của Google. Apache 2.0 là giấy phép phổ biến trong hạ tầng mã nguồn mở, nên quy trình đánh giá pháp lý thường đơn giản hơn.

Phần cứng bạn cần

Mục tiêu của Google là máy có 16GB VRAM hoặc 16GB bộ nhớ hợp nhất kiểu Apple. Lượng tử hóa giúp giảm yêu cầu bộ nhớ:

Chế độ Bộ nhớ xấp xỉ
Chất lượng đầy đủ khoảng 16GB
8-bit khoảng 14GB
4-bit, Q4_K_M khoảng 8GB

Điều này đặt Gemma 4 12B trong tầm với của:

  • GPU chơi game phổ thông.
  • MacBook 16GB.
  • Workstation tầm trung.
  • Máy local dùng để xử lý dữ liệu riêng tư.

Nếu phần cứng hạn chế hơn, bạn có thể cân nhắc E2B hoặc E4B.

Hạn chế cần biết

Theo thẻ mô hình, bạn vẫn cần xử lý các giới hạn quen thuộc của LLM:

  • Mô hình có thể sinh thông tin sai hoặc lỗi thời.
  • Mô hình có thể phản ánh thiên lệch trong dữ liệu huấn luyện.
  • Châm biếm, sắc thái và ngôn ngữ hình tượng không phải lúc nào cũng được hiểu đúng.
  • Suy luận thông thường vẫn có giới hạn ở kích thước 12B.
  • Chất lượng output phụ thuộc mạnh vào prompt và ngữ cảnh bạn cung cấp.

Trong production, hãy thêm các lớp kiểm soát:

- Validate JSON trước khi dùng.
- Không tin output cho quyết định quan trọng nếu chưa kiểm chứng.
- Log prompt và response để debug.
- Dùng schema cố định cho các workflow tự động.
- Thêm fallback khi model trả về output không hợp lệ.
Enter fullscreen mode Exit fullscreen mode

Gemma 4 12B không thay thế hoàn toàn các mô hình đám mây mạnh nhất cho tác vụ suy luận khó. Giá trị chính của nó là đa phương thức, mã nguồn mở, có thể chạy tại nơi dữ liệu của bạn đang nằm.

Câu hỏi thường gặp

Gemma 4 12B có miễn phí không?

Có. Trọng số là mã nguồn mở theo Apache 2.0 và có thể tải miễn phí từ Hugging Face và Kaggle. Bạn chỉ trả chi phí phần cứng hoặc cloud nơi bạn chạy nó. Xem cách sử dụng Gemma 4 12B miễn phí.

Gemma 4 12B có thực sự hiểu âm thanh không?

Có. Nó nhận âm thanh thô làm đầu vào và có thể chuyển ngữ lời nói, nhận dạng người nói và trả lời câu hỏi về âm thanh. Đây là mô hình cỡ trung đầu tiên làm việc này nguyên bản thay vì thông qua một mô hình giọng nói riêng.

Khác biệt giữa gemma-4-12Bgemma-4-12B-it là gì?

gemma-4-12B là mô hình cơ bản sau tiền huấn luyện. gemma-4-12B-it được tinh chỉnh theo hướng dẫn cho chat, gọi công cụ và tuân theo chỉ dẫn. Với hầu hết ứng dụng, bạn nên bắt đầu bằng bản -it.

12B khác gì so với 26B và 31B?

12B là mô hình dày đặc, không bộ mã hóa, tối ưu cho máy 16GB. 26B là mô hình Mixture-of-Experts với 4B tham số hoạt động trên tổng 26B. 31B là mô hình dày đặc lớn hơn, cho chất lượng cao hơn nhưng cần nhiều bộ nhớ hơn.

Gemma 4 12B có hỗ trợ gọi công cụ không?

Có. Nó hỗ trợ gọi hàm văn bản và đa phương thức, cùng chế độ suy nghĩ tùy chọn cho suy luận từng bước. Điều này giúp nó phù hợp với workflow dạng agent.

Nó so sánh với Gemini 3.5 như thế nào?

Hai mô hình phục vụ nhu cầu khác nhau. Gemini 3.5 là mô hình do Google lưu trữ; xem Gemini 3.5 là gì. Gemma 4 12B là mô hình nguồn mở bạn tự chạy. Bạn đánh đổi một phần chất lượng đỉnh cao để có quyền riêng tư, khả năng chạy offline và chi phí mỗi token bằng không trên phần cứng của mình.

Top comments (0)