Thanawat Wongchai

Posted on Jun 4 • Originally published at apidog.com

Gemma 4 12B คืออะไร

Google เปิดตัว Gemma 4 12B เมื่อวันที่ 3 มิถุนายน 2026 เป็นโมเดล open-weights ขนาด 11.95B พารามิเตอร์ที่รับข้อความ รูปภาพ เสียง และวิดีโอ แล้วส่งออกเป็นข้อความ จุดสำคัญสำหรับนักพัฒนาคือสามารถรันบนแล็ปท็อปหน่วยความจำ 16GB ได้ และเป็นโมเดลขนาดกลางรุ่นแรกที่รองรับอินพุตเสียงแบบเนทีฟโดยไม่ต้องใช้ตัวเข้ารหัสภาพหรือเสียงแยกต่างหาก

ลองใช้ Apidog วันนี้

ต่างจากโมเดลหลายโมดอลทั่วไปที่ต่อ visual encoder และ audio encoder เข้ากับ LLM, Gemma 4 12B ป้อนแพตช์ภาพดิบและคลื่นเสียงเข้าสู่โมเดลโดยตรง คุณจึงได้ไฟล์น้ำหนัก 12B ชุดเดียวที่จัดการอินพุตได้ 4 ประเภท ทำงานออฟไลน์ และใช้ใบอนุญาต Apache 2.0 สำหรับงานเชิงพาณิชย์ได้

บทความนี้สรุปว่า Gemma 4 12B คืออะไร อยู่ตรงไหนในตระกูล Gemma 4 และควรนำไปใช้สร้างอะไรได้บ้าง หากต้องการเริ่มรันโมเดลทันที อ่านคู่มือประกอบ: วิธีใช้ Gemma 4 12B ฟรี

Gemma 4 12B โดยสรุป

รายละเอียด	ค่า
เปิดตัว	3 มิถุนายน 2026
พารามิเตอร์	11.95B แบบ dense
อินพุต	ข้อความ, รูปภาพ, เสียง, วิดีโอ
เอาต์พุต	ข้อความ
Context window	256K โทเค็น
สถาปัตยกรรม	มัลติโมดอลแบบรวม ไม่มีตัวเข้ารหัส
ใบอนุญาต	Apache 2.0
ทำงานบน	16GB VRAM หรือ unified memory ประมาณ 8GB ที่ 4-bit
รุ่นย่อย	`google/gemma-4-12B` พื้นฐาน, `google/gemma-4-12B-it` ปรับแต่งคำสั่ง

คำตอบสั้นๆ

Gemma 4 12B เป็นโมเดลเปิดแบบ dense ขนาด 12B จาก Google DeepMind ที่รับข้อความ รูปภาพ เสียง และวิดีโอเป็นอินพุต แล้วตอบกลับเป็นข้อความ เหมาะกับการรันในเครื่องบนฮาร์ดแวร์ผู้ใช้ทั่วไป พร้อม context window 256K โทเค็น การเรียกใช้เครื่องมือแบบเนทีฟ และโหมดให้เหตุผลทีละขั้นตอนที่เลือกเปิดได้

ในตระกูล Gemma 4 Google วาง 12B เป็นโมเดลตรงกลางระหว่าง E4B สำหรับอุปกรณ์ปลายทางกับโมเดล Mixture-of-Experts ขนาดใหญ่ 26B โดยให้คุณภาพใกล้ 26B ในหลาย benchmark แต่ใช้หน่วยความจำน้อยกว่าครึ่งหนึ่ง

12B อยู่ตรงไหนในตระกูล Gemma 4

Gemma 4 ไม่ได้เปิดตัวพร้อมกันทั้งหมด รุ่น E2B, E4B, 26B และ 31B เปิดตัวเมื่อวันที่ 31 มีนาคม 2026 ส่วน 12B เพิ่มเข้ามาเมื่อวันที่ 3 มิถุนายน

โมเดล	ขนาด	บริบท	หมายเหตุ
Gemma 4 E2B	2.3B effective / 5.1B raw	128K	บนอุปกรณ์, อินพุตเสียง
Gemma 4 E4B	4.5B effective / 8B raw	128K	กะทัดรัด, อินพุตเสียง
Gemma 4 12B	11.95B dense	256K	ไม่มีตัวเข้ารหัส, อินพุตเสียง
Gemma 4 26B A4B	4B active / 26B total, MoE	256K	Mixture-of-Experts
Gemma 4 31B	31B dense	256K	เน้นคุณภาพสูงสุด

12B เป็นรุ่นเดียวในตระกูลที่ใช้การออกแบบแบบ encoder-free รุ่นอื่นยังใช้ visual encoder แบบดั้งเดิม และในรุ่นเล็กบางตัวมี conformer audio encoder ดังนั้น 12B จึงเป็นตัวอย่างที่ชัดเจนของทิศทาง AI หลายโมดอลบนอุปกรณ์ของ Google

ถ้าต้องการดูบริบทของโมเดลเปิดอื่นๆ อ่านเพิ่มเติมได้ที่ การเปรียบเทียบ MiniMax M3, DeepSeek V4 และ Qwen 3.7 และ สงครามราคาโมเดล open-weight

“Encoder-free” หมายถึงอะไร

โมเดลหลายโมดอลทั่วไปมักทำงานแบบนี้:

visual encoder แปลงภาพเป็น embeddings
audio encoder แปลงเสียงเป็น embeddings
projector แมป embeddings เข้าสู่พื้นที่ของ language model

ผลคือคุณต้องโหลด ปรับแต่ง และเก็บหลายองค์ประกอบไว้ในหน่วยความจำ

Gemma 4 12B ตัด encoder ออก:

ภาพ: ใช้โมดูล embedding น้ำหนักเบา ฉายแพตช์ภาพดิบเข้าสู่ embedding space ของโมเดลโดยตรง
เสียง: ตัด audio encoder ออก แล้วฉายเสียงดิบเข้าสู่มิติเดียวกับ token ข้อความ

ผลลัพธ์คืออินพุตภาพและเสียงไหลเข้าสู่แกนของ language model โดยตรง ใช้น้ำหนักชุดเดียว และจัดการทุก modality เป็น token

เทคนิคที่ช่วยให้รันบนเครื่องเล็กได้

Per-layer embeddings (PLE): แต่ละ decoder layer มี embedding ขนาดเล็กเฉพาะของตัวเอง ช่วยลดต้นทุนพารามิเตอร์และให้แต่ละเลเยอร์เชี่ยวชาญงานได้ดีขึ้น
Shared KV cache: เลเยอร์ท้ายๆ ใช้ key-value tensor ซ้ำจากเลเยอร์ก่อนหน้า ลดหน่วยความจำขณะรัน long-context และบนอุปกรณ์ โดยเสียคุณภาพเพียงเล็กน้อย
Multi-Token Prediction (MTP): Google มี MTP drafter สำหรับ speculative decoding ซึ่งช่วยเร่ง inference แบบ end-to-end ได้สูงสุดประมาณ 3 เท่า โดยไม่เปลี่ยนคุณภาพผลลัพธ์

เสียงเนทีฟและความสามารถหลายโมดอล

โมเดลเปิดหลายตัวอ่านภาพได้ แต่ Gemma 4 12B เพิ่มเสียงเข้าไปในโมเดลเดียวกับข้อความและภาพ จึงเหมาะกับงานอย่าง:

ถอดเสียงพูดอัตโนมัติ
ระบุผู้พูดว่าใครพูดช่วงไหน
ถามตอบจากไฟล์เสียงหรือเสียงที่ไม่ใช่คำพูด
วิเคราะห์วิดีโอพร้อมเสียง ไม่ใช่แค่เฟรม
caption ภาพ, ตรวจจับวัตถุหรือ UI, reasoning จากภาพ

เมื่อต้องผสมหลาย modality ให้จัดลำดับอินพุตให้ถูกต้องตาม chat template:

รูปภาพ
ข้อความ prompt
เสียง

โมเดลจะตอบกลับเป็นข้อความเสมอ

ประสิทธิภาพของ Gemma 4 12B

คะแนนต่อไปนี้เป็นของ gemma-4-12B-it จาก model card บน Hugging Face

Benchmark	Gemma 4 12B-it
MMLU Pro, reasoning	77.2%
AIME 2026, math, no tools	77.5%
GPQA Diamond, science	78.8%
LiveCodeBench v6, coding	72.0%
Codeforces, ELO	1659
MMMU Pro, vision	69.1%
MATH-Vision	79.7%
MRCR v2, 128K, 8-needle, long context	43.4%

เมื่อเทียบกับรุ่นข้างเคียงในตระกูลเดียวกัน:

Benchmark	E4B	12B	26B A4B	31B
MMLU Pro	69.4%	77.2%	82.6%	85.2%
AIME 2026	42.5%	77.5%	88.3%	89.2%
GPQA Diamond	58.6%	78.8%	82.3%	84.3%
LiveCodeBench v6	52.0%	72.0%	77.1%	80.0%

ภาพรวมคือ 12B ดีกว่า E4B ชัดเจน และเข้าใกล้ 26B MoE ในหลายงาน เหมาะกับกรณีที่ต้องการคุณภาพสูงแต่ยังต้องรันในเครื่องที่มีอยู่แล้ว

มีอะไรใหม่เมื่อเทียบกับ Gemma 3

ถ้าคุณเคยใช้ Gemma 3 จุดที่เปลี่ยนชัดเจนมี 4 เรื่อง:

เสียงเนทีฟ: Gemma 3 เน้นข้อความและภาพ ส่วน 12B เพิ่มเสียงและวิดีโอพร้อมเสียง
Encoder-free: ไม่ต้องโหลด visual/audio encoder เพิ่ม
Context 256K: เหมาะกับเอกสารยาว transcript และโค้ดหลายไฟล์
Apache 2.0: Gemma 4 ใช้ใบอนุญาต Apache 2.0 ซึ่งใช้งานง่ายกว่าสำหรับงานเชิงพาณิชย์และการแจกจ่ายต่อ

คุณสามารถสร้างอะไรได้บ้างด้วย Gemma 4 12B

Gemma 4 12B เหมาะกับงาน local-first หรือ on-device เช่น:

ผู้ช่วยออฟไลน์ ที่อ่านข้อความบนหน้าจอและเสียงจากไมโครโฟนโดยไม่ส่งข้อมูลออกนอกเครื่อง
เครื่องมือประชุม สำหรับถอดเสียง ระบุผู้พูด และสรุปในเครื่อง
pipeline เอกสารและสื่อ ที่รวม PDF, screenshot และเสียงไว้ใน prompt เดียว
agentic workflows ที่ใช้ function calling และ tools เพื่อวางแผนและลงมือทำ
ตัวช่วยเขียนโค้ดในเครื่อง สำหรับ autocomplete, refactor และอธิบายโค้ด

เมื่อเชื่อมโมเดล local เข้ากับแอป ให้ทดสอบ request/response shape ก่อนเสมอ โดยเฉพาะถ้าใช้ endpoint ที่เลียนแบบ OpenAI-compatible API

ตัวอย่างโครงสร้างคำขอสำหรับ endpoint แบบ chat completion:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "your-local-gemma-4-12b-model",
    "messages": [
      {
        "role": "user",
        "content": "สรุปไฟล์นี้เป็น bullet points สำหรับ developer"
      }
    ]
  }'

ตัวอย่างสิ่งที่ควรตรวจสอบก่อนเอาไปใช้จริง:

{
  "model": "your-local-gemma-4-12b-model",
  "messages": [
    {
      "role": "user",
      "content": "อธิบาย error log นี้และเสนอวิธี debug"
    }
  ],
  "temperature": 0.2
}

คุณสามารถใช้เครื่องมืออย่าง Apidog เพื่อบันทึก endpoint ในเครื่อง ส่ง prompt ตัวอย่าง และตรวจสอบ JSON response ก่อนนำไปต่อยอดในแอป ดาวน์โหลดได้ที่ ดาวน์โหลด Apidog และดูขั้นตอนเพิ่มใน คู่มือการใช้งานฟรี

ใบอนุญาตและสิ่งที่ Apache 2.0 ให้คุณ

Gemma 4 12B เปิดตัวภายใต้ Apache 2.0 โดยสรุปคือ:

ใช้เชิงพาณิชย์ได้
แก้ไข ปรับแต่ง และแจกจ่ายต่อได้
ใช้ในผลิตภัณฑ์ closed-source ได้
ผลลัพธ์ที่สร้างยังเป็นของคุณ

นี่เป็นการเปลี่ยนแปลงสำคัญจากใบอนุญาต Gemma รุ่นก่อนหน้า ซึ่งมีเงื่อนไขตามนโยบายของ Google เอง Apache 2.0 เป็นใบอนุญาต permissive ที่ทีมกฎหมายและทีม platform มักตรวจสอบได้ง่ายกว่า

ฮาร์ดแวร์ที่ต้องใช้

เป้าหมายของ Google คือเครื่องที่มีหน่วยความจำ 16GB ไม่ว่าจะเป็น VRAM หรือ unified memory เช่นบน Mac

ค่าประมาณตามระดับ quantization:

โหมด	หน่วยความจำโดยประมาณ
คุณภาพเต็ม	ประมาณ 16GB
8-bit	ประมาณ 14GB
4-bit, Q4_K_M	ประมาณ 8GB

ดังนั้น 12B จึงเหมาะกับ GPU เกมมิ่งทั่วไป, MacBook 16GB หรือ workstation ระดับกลาง ถ้าหน่วยความจำจำกัดกว่านี้ ให้พิจารณา E2B หรือ E4B

ข้อจำกัดที่ควรรู้ก่อนใช้งานจริง

Google ระบุข้อจำกัดไว้ใน model card เช่น:

อาจสร้างข้อเท็จจริงผิดหรือไม่เป็นปัจจุบัน
อาจสะท้อน bias จากข้อมูลฝึก
จัดการ sarcasm, nuance และภาษาที่มีความหมายแฝงได้ไม่สม่ำเสมอ
common-sense reasoning ยังมีข้อจำกัดตามขนาดโมเดล
คุณภาพขึ้นกับความชัดเจนของ prompt และบริบทที่ให้

แนวทางใช้งานจริงคือเพิ่ม validation layer เสมอ โดยเฉพาะงานที่เกี่ยวกับข้อเท็จจริง กฎหมาย การแพทย์ การเงิน หรือ automation ที่มีผลกระทบกับระบบภายนอก

คำถามที่พบบ่อย

Gemma 4 12B ฟรีหรือไม่?

ใช่ น้ำหนักโมเดลเป็นแบบเปิดภายใต้ Apache 2.0 และดาวน์โหลดได้ฟรีจาก Hugging Face และ Kaggle คุณจ่ายเฉพาะค่าฮาร์ดแวร์หรือคลาวด์ที่ใช้รันโมเดล อ่านเพิ่ม: วิธีใช้ Gemma 4 12B ฟรี

Gemma 4 12B เข้าใจเสียงได้จริงหรือไม่?

ใช่ มันรับเสียงดิบเป็นอินพุต สามารถถอดเสียง ระบุผู้พูด และตอบคำถามเกี่ยวกับเสียงได้ โดยไม่ต้องผ่านโมเดลเสียงแยกต่างหาก

ต่างกันอย่างไรระหว่าง gemma-4-12B และ gemma-4-12B-it?

gemma-4-12B คือโมเดลพื้นฐานที่ pretrain มา ส่วน gemma-4-12B-it ปรับแต่งคำสั่งสำหรับแชท การใช้เครื่องมือ และการทำตามคำสั่ง ผู้ใช้ส่วนใหญ่ควรเริ่มจากรุ่น -it

12B ต่างจาก 26B และ 31B อย่างไร?

12B เป็น dense model แบบ encoder-free ที่ปรับให้รันบนเครื่อง 16GB ส่วน 26B เป็น Mixture-of-Experts ที่มี 4B active จากทั้งหมด 26B และ 31B เป็น dense model ขนาดใหญ่กว่าเพื่อคุณภาพระดับสูงกว่า ทั้งสองรุ่นใหญ่ได้คะแนน benchmark สูงกว่า แต่ใช้หน่วยความจำมากกว่า

Gemma 4 12B รองรับ tool calling หรือไม่?

รองรับ ทั้ง function calling แบบข้อความและหลายโมดอล รวมถึงโหมด thinking สำหรับ reasoning ทีละขั้นตอน จึงใช้กับ agentic workflows ได้

เทียบกับ Gemini 3.5 อย่างไร?

เป็นคนละประเภท Gemini 3.5 คือโมเดล hosted ระดับสูงของ Google อ่านเพิ่ม: Gemini 3.5 คืออะไร ส่วน Gemma 4 12B คือโมเดลเปิดที่คุณรันเอง แลกคุณภาพสูงสุดบางส่วนกับความเป็นส่วนตัว การทำงานออฟไลน์ และต้นทุนต่อโทเค็นเป็นศูนย์บนเครื่องของคุณเอง

DEV Community