Gemma 4 12B เป็นโมเดลแบบ open-weights ภายใต้ Apache 2.0 ดังนั้น “ฟรี” ในบทความนี้หมายถึงดาวน์โหลดและรันเองได้โดยไม่เสียค่า API หรือค่าสมัครสมาชิก ค่าใช้จ่ายเดียวคือฮาร์ดแวร์ที่คุณใช้รันโมเดล ไม่ว่าจะเป็นเครื่อง local, แล็ปท็อป หรือเบราว์เซอร์สำหรับลองสาธิต
สิ่งที่ควรรู้ก่อนเริ่ม: Gemma 4 12B ถูกออกแบบมาสำหรับการใช้งานในเครื่องและบนอุปกรณ์ ส่วนรุ่นที่ใหญ่กว่าอย่าง 31B และ 26B เป็นโมเดลที่ Google โฮสต์ให้ใช้งานฟรีใน AI Studio จุดเด่นของ 12B คือสามารถรันบนแล็ปท็อป RAM 16GB ได้ หากคุณยังไม่คุ้นกับโมเดลนี้ อ่านสเปกเพิ่มเติมได้ที่ Gemma 4 12B คืออะไร
ด้านล่างคือ 6 วิธีใช้งาน Gemma 4 12B ตั้งแต่ลองในเบราว์เซอร์ภายใน 1 นาที ไปจนถึงรัน API ในเครื่องเพื่อเอาไปต่อกับแอปจริง
สรุปโดยย่อ
| วิธีการ | สิ่งที่คุณได้รับ | เหมาะสำหรับ |
|---|---|---|
| Hugging Face Space | แชทผ่านเบราว์เซอร์, ไม่ต้องติดตั้ง | ลองโมเดลอย่างรวดเร็ว |
| Ollama | โมเดลในเครื่อง + API ที่เข้ากันได้กับ OpenAI | นักพัฒนาที่ต้องการเริ่มด้วยคำสั่งเดียว |
| LM Studio | แอปเดสก์ท็อปพร้อม GUI | ผู้ใช้ที่ไม่อยากใช้ Terminal |
| llama.cpp | API server ในเครื่องที่เบาและเร็ว | การตั้งค่าขั้นสูงและเครื่องทรัพยากรจำกัด |
| HF Transformers | Python, ควบคุมได้เต็มที่, ใช้ Colab ได้ | Notebook, experiment, การปรับแต่งโมเดล |
| Google AI Edge | รันบนอุปกรณ์และมือถือ | แอป offline, mobile, edge device |
วิธีที่ 1: ลองใช้ในเบราว์เซอร์ ไม่ต้องติดตั้ง
วิธีที่เร็วที่สุดในการดูว่า Gemma 4 12B ทำอะไรได้คือใช้ Space สาธิตบน Hugging Face คุณไม่ต้องดาวน์โหลดโมเดล ไม่ต้องมีบัญชี และไม่ต้องมี GPU
ขั้นตอน:
- เปิด Space สาธิต Gemma 4 12B
- พิมพ์ prompt หรืออัปโหลดรูปภาพ/เสียง
- อ่าน response ที่โมเดลส่งกลับมา
วิธีนี้เหมาะกับการตรวจสอบคุณภาพเบื้องต้น และทดสอบความสามารถแบบ multimodal เพราะ Space รองรับ input ทั้งข้อความ รูปภาพ และเสียง เมื่อเริ่มต้องการ integrate กับแอปจริง ให้ใช้วิธี local ด้านล่าง
วิธีที่ 2: Ollama ค่าเริ่มต้นสำหรับนักพัฒนา
Ollama เป็นวิธีที่ง่ายที่สุดในการรัน Gemma 4 12B ในเครื่อง พร้อม API ที่ใช้งานต่อได้ทันที
ติดตั้ง Ollama
บน macOS หรือ Linux:
curl -fsSL https://ollama.com/install.sh | sh
บน Windows ให้ดาวน์โหลดตัวติดตั้งจาก ollama.com แล้วติดตั้งตามขั้นตอน
ดาวน์โหลดและรันโมเดล
ollama pull gemma4:12b
ollama run gemma4:12b
คำสั่งแรกจะดาวน์โหลดโมเดล โดยค่าเริ่มต้นใช้รุ่น 4-bit Q4_K_M ขนาดประมาณ 8GB
คำสั่งที่สองจะเปิด interactive chat ใน Terminal
พิมพ์คำสั่งนี้เพื่อออก:
/bye
เรียกใช้ Local API
Ollama เปิด REST API ที่เข้ากันได้กับ OpenAI ที่:
http://localhost:11434
ทดสอบด้วย curl:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Explain how transformers work in two sentences."
}
]
}'
ถ้าแอปหรือ SDK ของคุณรองรับ OpenAI-compatible endpoint ให้เปลี่ยน base URL เป็น:
http://localhost:11434/v1
แล้วใช้ model เป็น:
gemma4:12b
รูปแบบนี้ใช้ได้กับ editor, agent framework และ API client หลายตัว วิธีการตั้งค่าจะคล้ายกับบทความ การใช้งาน DeepSeek V4 ใน Cursor เพียงเปลี่ยนชื่อโมเดลเป็น gemma4:12b
คำสั่งที่ใช้บ่อย:
ollama list
ollama ps
ollama show gemma4:12b
ความหมาย:
-
ollama listแสดงโมเดลที่ดาวน์โหลดแล้ว -
ollama psแสดงโมเดลที่กำลังรันอยู่ -
ollama show gemma4:12bแสดงรายละเอียดโมเดล
วิธีที่ 3: LM Studio สำหรับคนที่ไม่อยากใช้ Terminal
ถ้าคุณต้องการ GUI ให้ใช้ LM Studio ซึ่งมีแอปสำหรับ Windows, macOS และ Linux
ขั้นตอน:
- ดาวน์โหลดและติดตั้ง LM Studio
- ค้นหา Gemma 4 12B ใน model catalog
- เลือก quantization ที่เหมาะกับ RAM ของเครื่อง
- ดาวน์โหลดโมเดล
- เปิดแท็บ Chat แล้วเริ่มทดสอบ prompt
LM Studio ยังสามารถเปิด local server ที่มี endpoint เข้ากันได้กับ OpenAI โดยทั่วไปใช้พอร์ต:
http://localhost:1234
วิธีนี้เหมาะกับทีมที่ต้องการทดลอง prompt, ตรวจสอบ output หรือใช้งาน local model โดยไม่ต้องจัดการ command line
วิธีที่ 4: llama.cpp สำหรับ API ที่เบาและเร็ว
llama.cpp ใช้รันโมเดล GGUF ด้วย resource ต่ำ และมี server ที่เข้ากันได้กับ OpenAI ในตัว
ติดตั้ง:
# macOS
brew install llama.cpp
# Windows
winget install llama.cpp
จากนั้นเริ่ม server โดยชี้ไปยัง GGUF build ของ Gemma 4 12B
ตรวจสอบ repo ที่ถูกต้องจากคอลเลกชัน ggml-org/gemma-4 บน Hugging Face แล้วรัน:
llama-server -hf ggml-org/gemma-4-12B-it-GGUF
เมื่อ server ทำงาน คุณจะได้ OpenAI-compatible API ที่:
http://localhost:8080/v1
วิธีนี้เหมาะเมื่อคุณต้องการ dependency น้อยที่สุด ต้องการปรับ performance เอง หรือรันบนเครื่องที่ทรัพยากรจำกัด
วิธีที่ 5: Hugging Face Transformers สำหรับควบคุมเต็มที่
ถ้าคุณต้องการใช้ Gemma 4 12B ใน Notebook, Python script หรือ workflow สำหรับ experiment ให้ใช้ Hugging Face Transformers
ติดตั้ง dependency:
pip install transformers torch accelerate torchvision
# สำหรับ audio input
pip install librosa
ตัวอย่าง Python สำหรับโหลดโมเดล instruction-tuned และสร้าง response:
from transformers import AutoProcessor, AutoModelForMultimodalLM
MODEL_ID = "google/gemma-4-12B-it"
processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
MODEL_ID,
dtype="auto",
device_map="auto",
)
messages = [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Write a short joke about saving RAM."
},
]
inputs = processor.apply_chat_template(
messages,
tokenize=True,
return_dict=True,
return_tensors="pt",
add_generation_prompt=True,
enable_thinking=False,
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(
**inputs,
max_new_tokens=1024
)
response = processor.decode(
outputs[0][input_len:],
skip_special_tokens=False
)
print(processor.parse_response(response))
ถ้าต้องการเปิด reasoning แบบทีละขั้นตอน ให้ตั้งค่า:
enable_thinking=True
สำหรับ input แบบรูปภาพหรือเสียง ให้เพิ่ม content item เช่น:
{"type": "image", ...}
{"type": "audio", ...}
โดยทั่วไปให้ใส่รูปภาพก่อนข้อความ และใส่เสียงหลังจากนั้น น้ำหนักโมเดลยังมีใน Kaggle หากคุณต้องการใช้แหล่งนั้น ตัวอย่างโค้ดเต็มอยู่ใน คู่มือนักพัฒนา
วิธีที่ 6: Google AI Edge สำหรับอุปกรณ์และมือถือ
ถ้าต้องการรัน Gemma 4 12B บนโทรศัพท์หรือ edge device ให้ใช้ Google AI Edge stack ซึ่งรวมถึง Google AI Edge Gallery และ LiteRT-LM CLI
ตัวอย่างการสร้าง local server ด้วย LiteRT-LM:
litert-lm import \
--from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve
วิธีนี้เหมาะกับผู้ช่วยแบบ offline, mobile app และ embedded application ที่ต้องการให้ข้อมูลอยู่บนอุปกรณ์
ทดสอบ Gemma 4 12B Local API ด้วย Apidog
เมื่อคุณรัน Gemma 4 12B ผ่าน Ollama หรือ llama.cpp แล้ว คุณจะมี HTTP API บนเครื่อง ก่อนนำไปต่อกับแอปจริง ควรทดสอบ request/response ให้ชัดเจนใน API client อย่าง Apidog
ขั้นตอนสำหรับ Ollama:
- ดาวน์โหลด Apidog
- สร้าง HTTP project ใหม่
- เพิ่ม request แบบ
POST - ตั้ง URL เป็น:
http://localhost:11434/v1/chat/completions
- ตั้ง body เป็น JSON:
{
"model": "gemma4:12b",
"messages": [
{
"role": "user",
"content": "Return a JSON object with two fields: city and country."
}
],
"stream": false
}
- กด Send แล้วตรวจสอบ response
ถ้าต้องการสลับระหว่าง Ollama และ llama.cpp ให้เก็บ base URL เป็น environment variable เช่น:
OLLAMA_BASE_URL=http://localhost:11434/v1
LLAMA_CPP_BASE_URL=http://localhost:8080/v1
จากนั้นเปลี่ยน endpoint ได้โดยไม่ต้องแก้ request หลายจุด
สิ่งที่ควรตรวจสอบใน Apidog:
- request body เป็น JSON ถูกต้องหรือไม่
- field
modelตรงกับ runtime ที่ใช้หรือไม่ - response มี
choices[0].message.contentหรือไม่ - output ที่โมเดลส่งกลับมา parse เป็น JSON ได้จริงหรือไม่
- streaming ทำงานหรือไม่ เมื่อเปลี่ยน
"stream": true
ประโยชน์คือคุณจะเจอ prompt ที่ผิดรูปแบบ, field ที่สะกดผิด หรือ response ที่ไม่ตรง schema ใน Apidog ก่อน ไม่ใช่ตอน debug ในแอปจริงที่ซ้อนหลายชั้น
ถ้ากำลังเปรียบเทียบ API client เพิ่มเติม อ่านต่อได้ที่ เครื่องมือทดสอบ API ออนไลน์ฟรี และ ทางเลือก Postman ที่ดีที่สุด ขั้นตอนเดียวกันนี้ใช้กับ endpoint ที่เข้ากันได้กับ OpenAI อื่น ๆ ได้ด้วย รวมถึง workflow แบบ ทดสอบ API ด้วย Postman
ควรเลือก Quantization แบบไหน?
Gemma 4 12B ใช้หน่วยความจำต่างกันตามระดับ quantization:
| รุ่น | หน่วยความจำที่ต้องการ | ข้อดี/ข้อเสีย |
|---|---|---|
| ความแม่นยำเต็มรูปแบบ | ~16GB | คุณภาพดีที่สุด |
| 8-bit | ~14GB | คุณภาพใกล้เคียง full precision |
| 4-bit (Q4_K_M) | ~8GB | คุณภาพลดลงเล็กน้อย แต่รันได้บนเครื่องหลากหลาย |
Ollama ใช้ 4-bit เป็นค่าเริ่มต้น จึงเหมาะกับ GPU 8GB หรือ MacBook ที่มี unified memory 16GB ถ้าคุณมี RAM/VRAM มากพอ รุ่น 8-bit จะให้คุณภาพดีขึ้นโดยใช้หน่วยความจำเพิ่มขึ้นอีกไม่กี่ GB
ควรเลือกวิธีฟรีแบบไหน?
เลือกตาม use case:
- แค่อยากลองโมเดล: ใช้ Hugging Face Space
- กำลังพัฒนาแอป: ใช้ Ollama เพื่อได้ local API เร็วที่สุด
- ไม่อยากใช้ Terminal: ใช้ LM Studio
- ต้องการ dependency ต่ำและปรับแต่งได้เยอะ: ใช้ llama.cpp
- ทำงานใน Notebook หรือทดลองเชิงลึก: ใช้ Hugging Face Transformers
- ทำ mobile หรือ edge app: ใช้ Google AI Edge
สำหรับนักพัฒนาส่วนใหญ่ เริ่มจาก Ollama จะง่ายที่สุด แล้วค่อยใช้ Transformers เมื่อจำเป็นต้องควบคุม pipeline มากขึ้น
เคล็ดลับสำหรับรัน Gemma 4 12B ในเครื่อง
- เลือก quantization ให้ตรงกับ RAM/VRAM: ถ้าโมเดลต้อง swap ไปดิสก์ ความเร็วจะตกมาก รุ่น 4-bit เป็นค่าเริ่มต้นที่ปลอดภัย
-
เปิด Thinking mode เฉพาะงานยาก: ใช้
enable_thinking=Trueสำหรับคณิตศาสตร์หรือ reasoning หลายขั้นตอน ปิดไว้สำหรับ chat ทั่วไปเพื่อลดเวลา - คุม prompt ให้อยู่ใน context window: แม้ context จะใหญ่ แต่ transcript, log และ codebase ยาว ๆ จะกินพื้นที่เร็ว
- ทดสอบ request ใน Apidog ก่อนต่อเข้ากับแอป: ตรวจ JSON, schema และ streaming ก่อนเขียน integration
- เปรียบเทียบกับโมเดลอื่น: รูปแบบ local workflow คล้ายกับ Qwen 3.7, MiniMax M3 และ Claude Opus 4.8
คำถามที่พบบ่อย
Gemma 4 12B ฟรีจริงหรือ?
ใช่ โมเดลเป็น open-weights ภายใต้ Apache 2.0 คุณดาวน์โหลดและรันได้ฟรี รวมถึงการใช้งานเชิงพาณิชย์ ค่าใช้จ่ายมีเฉพาะฮาร์ดแวร์หรือคลาวด์ที่คุณใช้รันเท่านั้น
จำเป็นต้องมี GPU หรือไม่?
ไม่จำเป็น แต่ GPU ช่วยให้เร็วขึ้น รุ่น 4-bit สามารถรันบน GPU 8GB หรือ Mac ที่มี unified memory 16GB ได้ หากใช้ CPU อย่างเดียวก็รันได้ แต่จะช้ากว่า
ใช้ Gemma 4 12B ใน Google AI Studio ได้ไหม?
ปัจจุบันยังไม่ได้ AI Studio โฮสต์รุ่น 31B และ 26B สำหรับแชทฟรีผ่านเบราว์เซอร์ ส่วน 12B ถูกออกแบบมาสำหรับ local และ on-device usage จึงต้องรันเองตามวิธีด้านบน
Local API ต้องใช้ API key หรือไม่?
ไม่ต้องใช้ Ollama และ llama.cpp ให้บริการผ่าน localhost โดยไม่มี key หากเครื่องมือบางตัวบังคับให้กรอก key ให้ใส่ placeholder string ได้ server ในเครื่องจะละเว้นค่า key นั้น
ใช้กับโค้ด OpenAI เดิมได้ไหม?
ได้ ทั้ง Ollama และ llama.cpp เปิด endpoint ที่เข้ากันได้กับ OpenAI เพียงเปลี่ยน base URL เป็น:
http://localhost:11434/v1
สำหรับ Ollama หรือ:
http://localhost:8080/v1
สำหรับ llama.cpp
เรียกใช้ความสามารถด้านรูปภาพและเสียงอย่างไร?
ใช้ Transformers, LM Studio หรือ AI Edge ที่รองรับ multimodal input เพิ่ม content แบบรูปภาพก่อน prompt และเพิ่ม content แบบเสียงหลังจากนั้น
Ollama หรือ llama.cpp อันไหนเร็วกว่า?
ทั้งสองใช้แนวทาง runtime ใกล้เคียงกัน llama.cpp มี overhead ต่ำกว่าและมี flag สำหรับ tuning มากกว่า ส่วน Ollama ติดตั้งและใช้ง่ายกว่า สำหรับผู้ใช้ส่วนใหญ่ ความแตกต่างด้านความเร็วไม่ใช่ปัจจัยหลักเท่ากับความสะดวกในการตั้งค่า




Top comments (0)