Google เปิดตัว Gemma 4 12B เมื่อวันที่ 3 มิถุนายน 2026 เป็นโมเดล open-weights ขนาด 11.95B พารามิเตอร์ที่รับข้อความ รูปภาพ เสียง และวิดีโอ แล้วส่งออกเป็นข้อความ จุดสำคัญสำหรับนักพัฒนาคือสามารถรันบนแล็ปท็อปหน่วยความจำ 16GB ได้ และเป็นโมเดลขนาดกลางรุ่นแรกที่รองรับอินพุตเสียงแบบเนทีฟโดยไม่ต้องใช้ตัวเข้ารหัสภาพหรือเสียงแยกต่างหาก
ต่างจากโมเดลหลายโมดอลทั่วไปที่ต่อ visual encoder และ audio encoder เข้ากับ LLM, Gemma 4 12B ป้อนแพตช์ภาพดิบและคลื่นเสียงเข้าสู่โมเดลโดยตรง คุณจึงได้ไฟล์น้ำหนัก 12B ชุดเดียวที่จัดการอินพุตได้ 4 ประเภท ทำงานออฟไลน์ และใช้ใบอนุญาต Apache 2.0 สำหรับงานเชิงพาณิชย์ได้
บทความนี้สรุปว่า Gemma 4 12B คืออะไร อยู่ตรงไหนในตระกูล Gemma 4 และควรนำไปใช้สร้างอะไรได้บ้าง หากต้องการเริ่มรันโมเดลทันที อ่านคู่มือประกอบ: วิธีใช้ Gemma 4 12B ฟรี
Gemma 4 12B โดยสรุป
| รายละเอียด | ค่า |
|---|---|
| เปิดตัว | 3 มิถุนายน 2026 |
| พารามิเตอร์ | 11.95B แบบ dense |
| อินพุต | ข้อความ, รูปภาพ, เสียง, วิดีโอ |
| เอาต์พุต | ข้อความ |
| Context window | 256K โทเค็น |
| สถาปัตยกรรม | มัลติโมดอลแบบรวม ไม่มีตัวเข้ารหัส |
| ใบอนุญาต | Apache 2.0 |
| ทำงานบน | 16GB VRAM หรือ unified memory ประมาณ 8GB ที่ 4-bit |
| รุ่นย่อย |
google/gemma-4-12B พื้นฐาน, google/gemma-4-12B-it ปรับแต่งคำสั่ง |
คำตอบสั้นๆ
Gemma 4 12B เป็นโมเดลเปิดแบบ dense ขนาด 12B จาก Google DeepMind ที่รับข้อความ รูปภาพ เสียง และวิดีโอเป็นอินพุต แล้วตอบกลับเป็นข้อความ เหมาะกับการรันในเครื่องบนฮาร์ดแวร์ผู้ใช้ทั่วไป พร้อม context window 256K โทเค็น การเรียกใช้เครื่องมือแบบเนทีฟ และโหมดให้เหตุผลทีละขั้นตอนที่เลือกเปิดได้
ในตระกูล Gemma 4 Google วาง 12B เป็นโมเดลตรงกลางระหว่าง E4B สำหรับอุปกรณ์ปลายทางกับโมเดล Mixture-of-Experts ขนาดใหญ่ 26B โดยให้คุณภาพใกล้ 26B ในหลาย benchmark แต่ใช้หน่วยความจำน้อยกว่าครึ่งหนึ่ง
12B อยู่ตรงไหนในตระกูล Gemma 4
Gemma 4 ไม่ได้เปิดตัวพร้อมกันทั้งหมด รุ่น E2B, E4B, 26B และ 31B เปิดตัวเมื่อวันที่ 31 มีนาคม 2026 ส่วน 12B เพิ่มเข้ามาเมื่อวันที่ 3 มิถุนายน
| โมเดล | ขนาด | บริบท | หมายเหตุ |
|---|---|---|---|
| Gemma 4 E2B | 2.3B effective / 5.1B raw | 128K | บนอุปกรณ์, อินพุตเสียง |
| Gemma 4 E4B | 4.5B effective / 8B raw | 128K | กะทัดรัด, อินพุตเสียง |
| Gemma 4 12B | 11.95B dense | 256K | ไม่มีตัวเข้ารหัส, อินพุตเสียง |
| Gemma 4 26B A4B | 4B active / 26B total, MoE | 256K | Mixture-of-Experts |
| Gemma 4 31B | 31B dense | 256K | เน้นคุณภาพสูงสุด |
12B เป็นรุ่นเดียวในตระกูลที่ใช้การออกแบบแบบ encoder-free รุ่นอื่นยังใช้ visual encoder แบบดั้งเดิม และในรุ่นเล็กบางตัวมี conformer audio encoder ดังนั้น 12B จึงเป็นตัวอย่างที่ชัดเจนของทิศทาง AI หลายโมดอลบนอุปกรณ์ของ Google
ถ้าต้องการดูบริบทของโมเดลเปิดอื่นๆ อ่านเพิ่มเติมได้ที่ การเปรียบเทียบ MiniMax M3, DeepSeek V4 และ Qwen 3.7 และ สงครามราคาโมเดล open-weight
“Encoder-free” หมายถึงอะไร
โมเดลหลายโมดอลทั่วไปมักทำงานแบบนี้:
- visual encoder แปลงภาพเป็น embeddings
- audio encoder แปลงเสียงเป็น embeddings
- projector แมป embeddings เข้าสู่พื้นที่ของ language model
ผลคือคุณต้องโหลด ปรับแต่ง และเก็บหลายองค์ประกอบไว้ในหน่วยความจำ
Gemma 4 12B ตัด encoder ออก:
- ภาพ: ใช้โมดูล embedding น้ำหนักเบา ฉายแพตช์ภาพดิบเข้าสู่ embedding space ของโมเดลโดยตรง
- เสียง: ตัด audio encoder ออก แล้วฉายเสียงดิบเข้าสู่มิติเดียวกับ token ข้อความ
ผลลัพธ์คืออินพุตภาพและเสียงไหลเข้าสู่แกนของ language model โดยตรง ใช้น้ำหนักชุดเดียว และจัดการทุก modality เป็น token
เทคนิคที่ช่วยให้รันบนเครื่องเล็กได้
- Per-layer embeddings (PLE): แต่ละ decoder layer มี embedding ขนาดเล็กเฉพาะของตัวเอง ช่วยลดต้นทุนพารามิเตอร์และให้แต่ละเลเยอร์เชี่ยวชาญงานได้ดีขึ้น
- Shared KV cache: เลเยอร์ท้ายๆ ใช้ key-value tensor ซ้ำจากเลเยอร์ก่อนหน้า ลดหน่วยความจำขณะรัน long-context และบนอุปกรณ์ โดยเสียคุณภาพเพียงเล็กน้อย
- Multi-Token Prediction (MTP): Google มี MTP drafter สำหรับ speculative decoding ซึ่งช่วยเร่ง inference แบบ end-to-end ได้สูงสุดประมาณ 3 เท่า โดยไม่เปลี่ยนคุณภาพผลลัพธ์
เสียงเนทีฟและความสามารถหลายโมดอล
โมเดลเปิดหลายตัวอ่านภาพได้ แต่ Gemma 4 12B เพิ่มเสียงเข้าไปในโมเดลเดียวกับข้อความและภาพ จึงเหมาะกับงานอย่าง:
- ถอดเสียงพูดอัตโนมัติ
- ระบุผู้พูดว่าใครพูดช่วงไหน
- ถามตอบจากไฟล์เสียงหรือเสียงที่ไม่ใช่คำพูด
- วิเคราะห์วิดีโอพร้อมเสียง ไม่ใช่แค่เฟรม
- caption ภาพ, ตรวจจับวัตถุหรือ UI, reasoning จากภาพ
เมื่อต้องผสมหลาย modality ให้จัดลำดับอินพุตให้ถูกต้องตาม chat template:
- รูปภาพ
- ข้อความ prompt
- เสียง
โมเดลจะตอบกลับเป็นข้อความเสมอ
ประสิทธิภาพของ Gemma 4 12B
คะแนนต่อไปนี้เป็นของ gemma-4-12B-it จาก model card บน Hugging Face
| Benchmark | Gemma 4 12B-it |
|---|---|
| MMLU Pro, reasoning | 77.2% |
| AIME 2026, math, no tools | 77.5% |
| GPQA Diamond, science | 78.8% |
| LiveCodeBench v6, coding | 72.0% |
| Codeforces, ELO | 1659 |
| MMMU Pro, vision | 69.1% |
| MATH-Vision | 79.7% |
| MRCR v2, 128K, 8-needle, long context | 43.4% |
เมื่อเทียบกับรุ่นข้างเคียงในตระกูลเดียวกัน:
| Benchmark | E4B | 12B | 26B A4B | 31B |
|---|---|---|---|---|
| MMLU Pro | 69.4% | 77.2% | 82.6% | 85.2% |
| AIME 2026 | 42.5% | 77.5% | 88.3% | 89.2% |
| GPQA Diamond | 58.6% | 78.8% | 82.3% | 84.3% |
| LiveCodeBench v6 | 52.0% | 72.0% | 77.1% | 80.0% |
ภาพรวมคือ 12B ดีกว่า E4B ชัดเจน และเข้าใกล้ 26B MoE ในหลายงาน เหมาะกับกรณีที่ต้องการคุณภาพสูงแต่ยังต้องรันในเครื่องที่มีอยู่แล้ว
มีอะไรใหม่เมื่อเทียบกับ Gemma 3
ถ้าคุณเคยใช้ Gemma 3 จุดที่เปลี่ยนชัดเจนมี 4 เรื่อง:
- เสียงเนทีฟ: Gemma 3 เน้นข้อความและภาพ ส่วน 12B เพิ่มเสียงและวิดีโอพร้อมเสียง
- Encoder-free: ไม่ต้องโหลด visual/audio encoder เพิ่ม
- Context 256K: เหมาะกับเอกสารยาว transcript และโค้ดหลายไฟล์
- Apache 2.0: Gemma 4 ใช้ใบอนุญาต Apache 2.0 ซึ่งใช้งานง่ายกว่าสำหรับงานเชิงพาณิชย์และการแจกจ่ายต่อ
คุณสามารถสร้างอะไรได้บ้างด้วย Gemma 4 12B
Gemma 4 12B เหมาะกับงาน local-first หรือ on-device เช่น:
- ผู้ช่วยออฟไลน์ ที่อ่านข้อความบนหน้าจอและเสียงจากไมโครโฟนโดยไม่ส่งข้อมูลออกนอกเครื่อง
- เครื่องมือประชุม สำหรับถอดเสียง ระบุผู้พูด และสรุปในเครื่อง
- pipeline เอกสารและสื่อ ที่รวม PDF, screenshot และเสียงไว้ใน prompt เดียว
- agentic workflows ที่ใช้ function calling และ tools เพื่อวางแผนและลงมือทำ
- ตัวช่วยเขียนโค้ดในเครื่อง สำหรับ autocomplete, refactor และอธิบายโค้ด
เมื่อเชื่อมโมเดล local เข้ากับแอป ให้ทดสอบ request/response shape ก่อนเสมอ โดยเฉพาะถ้าใช้ endpoint ที่เลียนแบบ OpenAI-compatible API
ตัวอย่างโครงสร้างคำขอสำหรับ endpoint แบบ chat completion:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "your-local-gemma-4-12b-model",
"messages": [
{
"role": "user",
"content": "สรุปไฟล์นี้เป็น bullet points สำหรับ developer"
}
]
}'
ตัวอย่างสิ่งที่ควรตรวจสอบก่อนเอาไปใช้จริง:
{
"model": "your-local-gemma-4-12b-model",
"messages": [
{
"role": "user",
"content": "อธิบาย error log นี้และเสนอวิธี debug"
}
],
"temperature": 0.2
}
คุณสามารถใช้เครื่องมืออย่าง Apidog เพื่อบันทึก endpoint ในเครื่อง ส่ง prompt ตัวอย่าง และตรวจสอบ JSON response ก่อนนำไปต่อยอดในแอป ดาวน์โหลดได้ที่ ดาวน์โหลด Apidog และดูขั้นตอนเพิ่มใน คู่มือการใช้งานฟรี
ใบอนุญาตและสิ่งที่ Apache 2.0 ให้คุณ
Gemma 4 12B เปิดตัวภายใต้ Apache 2.0 โดยสรุปคือ:
- ใช้เชิงพาณิชย์ได้
- แก้ไข ปรับแต่ง และแจกจ่ายต่อได้
- ใช้ในผลิตภัณฑ์ closed-source ได้
- ผลลัพธ์ที่สร้างยังเป็นของคุณ
นี่เป็นการเปลี่ยนแปลงสำคัญจากใบอนุญาต Gemma รุ่นก่อนหน้า ซึ่งมีเงื่อนไขตามนโยบายของ Google เอง Apache 2.0 เป็นใบอนุญาต permissive ที่ทีมกฎหมายและทีม platform มักตรวจสอบได้ง่ายกว่า
ฮาร์ดแวร์ที่ต้องใช้
เป้าหมายของ Google คือเครื่องที่มีหน่วยความจำ 16GB ไม่ว่าจะเป็น VRAM หรือ unified memory เช่นบน Mac
ค่าประมาณตามระดับ quantization:
| โหมด | หน่วยความจำโดยประมาณ |
|---|---|
| คุณภาพเต็ม | ประมาณ 16GB |
| 8-bit | ประมาณ 14GB |
| 4-bit, Q4_K_M | ประมาณ 8GB |
ดังนั้น 12B จึงเหมาะกับ GPU เกมมิ่งทั่วไป, MacBook 16GB หรือ workstation ระดับกลาง ถ้าหน่วยความจำจำกัดกว่านี้ ให้พิจารณา E2B หรือ E4B
ข้อจำกัดที่ควรรู้ก่อนใช้งานจริง
Google ระบุข้อจำกัดไว้ใน model card เช่น:
- อาจสร้างข้อเท็จจริงผิดหรือไม่เป็นปัจจุบัน
- อาจสะท้อน bias จากข้อมูลฝึก
- จัดการ sarcasm, nuance และภาษาที่มีความหมายแฝงได้ไม่สม่ำเสมอ
- common-sense reasoning ยังมีข้อจำกัดตามขนาดโมเดล
- คุณภาพขึ้นกับความชัดเจนของ prompt และบริบทที่ให้
แนวทางใช้งานจริงคือเพิ่ม validation layer เสมอ โดยเฉพาะงานที่เกี่ยวกับข้อเท็จจริง กฎหมาย การแพทย์ การเงิน หรือ automation ที่มีผลกระทบกับระบบภายนอก
คำถามที่พบบ่อย
Gemma 4 12B ฟรีหรือไม่?
ใช่ น้ำหนักโมเดลเป็นแบบเปิดภายใต้ Apache 2.0 และดาวน์โหลดได้ฟรีจาก Hugging Face และ Kaggle คุณจ่ายเฉพาะค่าฮาร์ดแวร์หรือคลาวด์ที่ใช้รันโมเดล อ่านเพิ่ม: วิธีใช้ Gemma 4 12B ฟรี
Gemma 4 12B เข้าใจเสียงได้จริงหรือไม่?
ใช่ มันรับเสียงดิบเป็นอินพุต สามารถถอดเสียง ระบุผู้พูด และตอบคำถามเกี่ยวกับเสียงได้ โดยไม่ต้องผ่านโมเดลเสียงแยกต่างหาก
ต่างกันอย่างไรระหว่าง gemma-4-12B และ gemma-4-12B-it?
gemma-4-12B คือโมเดลพื้นฐานที่ pretrain มา ส่วน gemma-4-12B-it ปรับแต่งคำสั่งสำหรับแชท การใช้เครื่องมือ และการทำตามคำสั่ง ผู้ใช้ส่วนใหญ่ควรเริ่มจากรุ่น -it
12B ต่างจาก 26B และ 31B อย่างไร?
12B เป็น dense model แบบ encoder-free ที่ปรับให้รันบนเครื่อง 16GB ส่วน 26B เป็น Mixture-of-Experts ที่มี 4B active จากทั้งหมด 26B และ 31B เป็น dense model ขนาดใหญ่กว่าเพื่อคุณภาพระดับสูงกว่า ทั้งสองรุ่นใหญ่ได้คะแนน benchmark สูงกว่า แต่ใช้หน่วยความจำมากกว่า
Gemma 4 12B รองรับ tool calling หรือไม่?
รองรับ ทั้ง function calling แบบข้อความและหลายโมดอล รวมถึงโหมด thinking สำหรับ reasoning ทีละขั้นตอน จึงใช้กับ agentic workflows ได้
เทียบกับ Gemini 3.5 อย่างไร?
เป็นคนละประเภท Gemini 3.5 คือโมเดล hosted ระดับสูงของ Google อ่านเพิ่ม: Gemini 3.5 คืออะไร ส่วน Gemma 4 12B คือโมเดลเปิดที่คุณรันเอง แลกคุณภาพสูงสุดบางส่วนกับความเป็นส่วนตัว การทำงานออฟไลน์ และต้นทุนต่อโทเค็นเป็นศูนย์บนเครื่องของคุณเอง

Top comments (0)