DEV Community

Cover image for วิธีใช้ Gemma 4 12B ฟรี: 6 วิธีที่ใช้งานได้จริงในปี 2026
Thanawat Wongchai
Thanawat Wongchai

Posted on • Originally published at apidog.com

วิธีใช้ Gemma 4 12B ฟรี: 6 วิธีที่ใช้งานได้จริงในปี 2026

Gemma 4 12B เป็นโมเดลแบบ open-weights ภายใต้ Apache 2.0 ดังนั้น “ฟรี” ในบทความนี้หมายถึงดาวน์โหลดและรันเองได้โดยไม่เสียค่า API หรือค่าสมัครสมาชิก ค่าใช้จ่ายเดียวคือฮาร์ดแวร์ที่คุณใช้รันโมเดล ไม่ว่าจะเป็นเครื่อง local, แล็ปท็อป หรือเบราว์เซอร์สำหรับลองสาธิต

ลองใช้ Apidog วันนี้

สิ่งที่ควรรู้ก่อนเริ่ม: Gemma 4 12B ถูกออกแบบมาสำหรับการใช้งานในเครื่องและบนอุปกรณ์ ส่วนรุ่นที่ใหญ่กว่าอย่าง 31B และ 26B เป็นโมเดลที่ Google โฮสต์ให้ใช้งานฟรีใน AI Studio จุดเด่นของ 12B คือสามารถรันบนแล็ปท็อป RAM 16GB ได้ หากคุณยังไม่คุ้นกับโมเดลนี้ อ่านสเปกเพิ่มเติมได้ที่ Gemma 4 12B คืออะไร

ด้านล่างคือ 6 วิธีใช้งาน Gemma 4 12B ตั้งแต่ลองในเบราว์เซอร์ภายใน 1 นาที ไปจนถึงรัน API ในเครื่องเพื่อเอาไปต่อกับแอปจริง

สรุปโดยย่อ

วิธีการ สิ่งที่คุณได้รับ เหมาะสำหรับ
Hugging Face Space แชทผ่านเบราว์เซอร์, ไม่ต้องติดตั้ง ลองโมเดลอย่างรวดเร็ว
Ollama โมเดลในเครื่อง + API ที่เข้ากันได้กับ OpenAI นักพัฒนาที่ต้องการเริ่มด้วยคำสั่งเดียว
LM Studio แอปเดสก์ท็อปพร้อม GUI ผู้ใช้ที่ไม่อยากใช้ Terminal
llama.cpp API server ในเครื่องที่เบาและเร็ว การตั้งค่าขั้นสูงและเครื่องทรัพยากรจำกัด
HF Transformers Python, ควบคุมได้เต็มที่, ใช้ Colab ได้ Notebook, experiment, การปรับแต่งโมเดล
Google AI Edge รันบนอุปกรณ์และมือถือ แอป offline, mobile, edge device

วิธีที่ 1: ลองใช้ในเบราว์เซอร์ ไม่ต้องติดตั้ง

วิธีที่เร็วที่สุดในการดูว่า Gemma 4 12B ทำอะไรได้คือใช้ Space สาธิตบน Hugging Face คุณไม่ต้องดาวน์โหลดโมเดล ไม่ต้องมีบัญชี และไม่ต้องมี GPU

ขั้นตอน:

  1. เปิด Space สาธิต Gemma 4 12B
  2. พิมพ์ prompt หรืออัปโหลดรูปภาพ/เสียง
  3. อ่าน response ที่โมเดลส่งกลับมา

วิธีนี้เหมาะกับการตรวจสอบคุณภาพเบื้องต้น และทดสอบความสามารถแบบ multimodal เพราะ Space รองรับ input ทั้งข้อความ รูปภาพ และเสียง เมื่อเริ่มต้องการ integrate กับแอปจริง ให้ใช้วิธี local ด้านล่าง

วิธีที่ 2: Ollama ค่าเริ่มต้นสำหรับนักพัฒนา

Ollama เป็นวิธีที่ง่ายที่สุดในการรัน Gemma 4 12B ในเครื่อง พร้อม API ที่ใช้งานต่อได้ทันที

ติดตั้ง Ollama

บน macOS หรือ Linux:

curl -fsSL https://ollama.com/install.sh | sh
Enter fullscreen mode Exit fullscreen mode

บน Windows ให้ดาวน์โหลดตัวติดตั้งจาก ollama.com แล้วติดตั้งตามขั้นตอน

ดาวน์โหลดและรันโมเดล

ollama pull gemma4:12b
ollama run gemma4:12b
Enter fullscreen mode Exit fullscreen mode

คำสั่งแรกจะดาวน์โหลดโมเดล โดยค่าเริ่มต้นใช้รุ่น 4-bit Q4_K_M ขนาดประมาณ 8GB

คำสั่งที่สองจะเปิด interactive chat ใน Terminal

พิมพ์คำสั่งนี้เพื่อออก:

/bye
Enter fullscreen mode Exit fullscreen mode

เรียกใช้ Local API

Ollama เปิด REST API ที่เข้ากันได้กับ OpenAI ที่:

http://localhost:11434
Enter fullscreen mode Exit fullscreen mode

ทดสอบด้วย curl:

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {
        "role": "user",
        "content": "Explain how transformers work in two sentences."
      }
    ]
  }'
Enter fullscreen mode Exit fullscreen mode

ถ้าแอปหรือ SDK ของคุณรองรับ OpenAI-compatible endpoint ให้เปลี่ยน base URL เป็น:

http://localhost:11434/v1
Enter fullscreen mode Exit fullscreen mode

แล้วใช้ model เป็น:

gemma4:12b
Enter fullscreen mode Exit fullscreen mode

รูปแบบนี้ใช้ได้กับ editor, agent framework และ API client หลายตัว วิธีการตั้งค่าจะคล้ายกับบทความ การใช้งาน DeepSeek V4 ใน Cursor เพียงเปลี่ยนชื่อโมเดลเป็น gemma4:12b

คำสั่งที่ใช้บ่อย:

ollama list
ollama ps
ollama show gemma4:12b
Enter fullscreen mode Exit fullscreen mode

ความหมาย:

  • ollama list แสดงโมเดลที่ดาวน์โหลดแล้ว
  • ollama ps แสดงโมเดลที่กำลังรันอยู่
  • ollama show gemma4:12b แสดงรายละเอียดโมเดล

วิธีที่ 3: LM Studio สำหรับคนที่ไม่อยากใช้ Terminal

ถ้าคุณต้องการ GUI ให้ใช้ LM Studio ซึ่งมีแอปสำหรับ Windows, macOS และ Linux

ขั้นตอน:

  1. ดาวน์โหลดและติดตั้ง LM Studio
  2. ค้นหา Gemma 4 12B ใน model catalog
  3. เลือก quantization ที่เหมาะกับ RAM ของเครื่อง
  4. ดาวน์โหลดโมเดล
  5. เปิดแท็บ Chat แล้วเริ่มทดสอบ prompt

LM Studio ยังสามารถเปิด local server ที่มี endpoint เข้ากันได้กับ OpenAI โดยทั่วไปใช้พอร์ต:

http://localhost:1234
Enter fullscreen mode Exit fullscreen mode

วิธีนี้เหมาะกับทีมที่ต้องการทดลอง prompt, ตรวจสอบ output หรือใช้งาน local model โดยไม่ต้องจัดการ command line

วิธีที่ 4: llama.cpp สำหรับ API ที่เบาและเร็ว

llama.cpp ใช้รันโมเดล GGUF ด้วย resource ต่ำ และมี server ที่เข้ากันได้กับ OpenAI ในตัว

ติดตั้ง:

# macOS
brew install llama.cpp

# Windows
winget install llama.cpp
Enter fullscreen mode Exit fullscreen mode

จากนั้นเริ่ม server โดยชี้ไปยัง GGUF build ของ Gemma 4 12B

ตรวจสอบ repo ที่ถูกต้องจากคอลเลกชัน ggml-org/gemma-4 บน Hugging Face แล้วรัน:

llama-server -hf ggml-org/gemma-4-12B-it-GGUF
Enter fullscreen mode Exit fullscreen mode

เมื่อ server ทำงาน คุณจะได้ OpenAI-compatible API ที่:

http://localhost:8080/v1
Enter fullscreen mode Exit fullscreen mode

วิธีนี้เหมาะเมื่อคุณต้องการ dependency น้อยที่สุด ต้องการปรับ performance เอง หรือรันบนเครื่องที่ทรัพยากรจำกัด

วิธีที่ 5: Hugging Face Transformers สำหรับควบคุมเต็มที่

ถ้าคุณต้องการใช้ Gemma 4 12B ใน Notebook, Python script หรือ workflow สำหรับ experiment ให้ใช้ Hugging Face Transformers

ติดตั้ง dependency:

pip install transformers torch accelerate torchvision

# สำหรับ audio input
pip install librosa
Enter fullscreen mode Exit fullscreen mode

ตัวอย่าง Python สำหรับโหลดโมเดล instruction-tuned และสร้าง response:

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)

model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {
        "role": "system",
        "content": "You are a helpful assistant."
    },
    {
        "role": "user",
        "content": "Write a short joke about saving RAM."
    },
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]

outputs = model.generate(
    **inputs,
    max_new_tokens=1024
)

response = processor.decode(
    outputs[0][input_len:],
    skip_special_tokens=False
)

print(processor.parse_response(response))
Enter fullscreen mode Exit fullscreen mode

ถ้าต้องการเปิด reasoning แบบทีละขั้นตอน ให้ตั้งค่า:

enable_thinking=True
Enter fullscreen mode Exit fullscreen mode

สำหรับ input แบบรูปภาพหรือเสียง ให้เพิ่ม content item เช่น:

{"type": "image", ...}
{"type": "audio", ...}
Enter fullscreen mode Exit fullscreen mode

โดยทั่วไปให้ใส่รูปภาพก่อนข้อความ และใส่เสียงหลังจากนั้น น้ำหนักโมเดลยังมีใน Kaggle หากคุณต้องการใช้แหล่งนั้น ตัวอย่างโค้ดเต็มอยู่ใน คู่มือนักพัฒนา

วิธีที่ 6: Google AI Edge สำหรับอุปกรณ์และมือถือ

ถ้าต้องการรัน Gemma 4 12B บนโทรศัพท์หรือ edge device ให้ใช้ Google AI Edge stack ซึ่งรวมถึง Google AI Edge Gallery และ LiteRT-LM CLI

ตัวอย่างการสร้าง local server ด้วย LiteRT-LM:

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b

litert-lm serve
Enter fullscreen mode Exit fullscreen mode

วิธีนี้เหมาะกับผู้ช่วยแบบ offline, mobile app และ embedded application ที่ต้องการให้ข้อมูลอยู่บนอุปกรณ์

ทดสอบ Gemma 4 12B Local API ด้วย Apidog

เมื่อคุณรัน Gemma 4 12B ผ่าน Ollama หรือ llama.cpp แล้ว คุณจะมี HTTP API บนเครื่อง ก่อนนำไปต่อกับแอปจริง ควรทดสอบ request/response ให้ชัดเจนใน API client อย่าง Apidog

ขั้นตอนสำหรับ Ollama:

  1. ดาวน์โหลด Apidog
  2. สร้าง HTTP project ใหม่
  3. เพิ่ม request แบบ POST
  4. ตั้ง URL เป็น:
http://localhost:11434/v1/chat/completions
Enter fullscreen mode Exit fullscreen mode
  1. ตั้ง body เป็น JSON:
{
  "model": "gemma4:12b",
  "messages": [
    {
      "role": "user",
      "content": "Return a JSON object with two fields: city and country."
    }
  ],
  "stream": false
}
Enter fullscreen mode Exit fullscreen mode
  1. กด Send แล้วตรวจสอบ response

ถ้าต้องการสลับระหว่าง Ollama และ llama.cpp ให้เก็บ base URL เป็น environment variable เช่น:

OLLAMA_BASE_URL=http://localhost:11434/v1
LLAMA_CPP_BASE_URL=http://localhost:8080/v1
Enter fullscreen mode Exit fullscreen mode

จากนั้นเปลี่ยน endpoint ได้โดยไม่ต้องแก้ request หลายจุด

สิ่งที่ควรตรวจสอบใน Apidog:

  • request body เป็น JSON ถูกต้องหรือไม่
  • field model ตรงกับ runtime ที่ใช้หรือไม่
  • response มี choices[0].message.content หรือไม่
  • output ที่โมเดลส่งกลับมา parse เป็น JSON ได้จริงหรือไม่
  • streaming ทำงานหรือไม่ เมื่อเปลี่ยน "stream": true

ประโยชน์คือคุณจะเจอ prompt ที่ผิดรูปแบบ, field ที่สะกดผิด หรือ response ที่ไม่ตรง schema ใน Apidog ก่อน ไม่ใช่ตอน debug ในแอปจริงที่ซ้อนหลายชั้น

ถ้ากำลังเปรียบเทียบ API client เพิ่มเติม อ่านต่อได้ที่ เครื่องมือทดสอบ API ออนไลน์ฟรี และ ทางเลือก Postman ที่ดีที่สุด ขั้นตอนเดียวกันนี้ใช้กับ endpoint ที่เข้ากันได้กับ OpenAI อื่น ๆ ได้ด้วย รวมถึง workflow แบบ ทดสอบ API ด้วย Postman

ควรเลือก Quantization แบบไหน?

Gemma 4 12B ใช้หน่วยความจำต่างกันตามระดับ quantization:

รุ่น หน่วยความจำที่ต้องการ ข้อดี/ข้อเสีย
ความแม่นยำเต็มรูปแบบ ~16GB คุณภาพดีที่สุด
8-bit ~14GB คุณภาพใกล้เคียง full precision
4-bit (Q4_K_M) ~8GB คุณภาพลดลงเล็กน้อย แต่รันได้บนเครื่องหลากหลาย

Ollama ใช้ 4-bit เป็นค่าเริ่มต้น จึงเหมาะกับ GPU 8GB หรือ MacBook ที่มี unified memory 16GB ถ้าคุณมี RAM/VRAM มากพอ รุ่น 8-bit จะให้คุณภาพดีขึ้นโดยใช้หน่วยความจำเพิ่มขึ้นอีกไม่กี่ GB

ควรเลือกวิธีฟรีแบบไหน?

เลือกตาม use case:

  • แค่อยากลองโมเดล: ใช้ Hugging Face Space
  • กำลังพัฒนาแอป: ใช้ Ollama เพื่อได้ local API เร็วที่สุด
  • ไม่อยากใช้ Terminal: ใช้ LM Studio
  • ต้องการ dependency ต่ำและปรับแต่งได้เยอะ: ใช้ llama.cpp
  • ทำงานใน Notebook หรือทดลองเชิงลึก: ใช้ Hugging Face Transformers
  • ทำ mobile หรือ edge app: ใช้ Google AI Edge

สำหรับนักพัฒนาส่วนใหญ่ เริ่มจาก Ollama จะง่ายที่สุด แล้วค่อยใช้ Transformers เมื่อจำเป็นต้องควบคุม pipeline มากขึ้น

เคล็ดลับสำหรับรัน Gemma 4 12B ในเครื่อง

  • เลือก quantization ให้ตรงกับ RAM/VRAM: ถ้าโมเดลต้อง swap ไปดิสก์ ความเร็วจะตกมาก รุ่น 4-bit เป็นค่าเริ่มต้นที่ปลอดภัย
  • เปิด Thinking mode เฉพาะงานยาก: ใช้ enable_thinking=True สำหรับคณิตศาสตร์หรือ reasoning หลายขั้นตอน ปิดไว้สำหรับ chat ทั่วไปเพื่อลดเวลา
  • คุม prompt ให้อยู่ใน context window: แม้ context จะใหญ่ แต่ transcript, log และ codebase ยาว ๆ จะกินพื้นที่เร็ว
  • ทดสอบ request ใน Apidog ก่อนต่อเข้ากับแอป: ตรวจ JSON, schema และ streaming ก่อนเขียน integration
  • เปรียบเทียบกับโมเดลอื่น: รูปแบบ local workflow คล้ายกับ Qwen 3.7, MiniMax M3 และ Claude Opus 4.8

คำถามที่พบบ่อย

Gemma 4 12B ฟรีจริงหรือ?

ใช่ โมเดลเป็น open-weights ภายใต้ Apache 2.0 คุณดาวน์โหลดและรันได้ฟรี รวมถึงการใช้งานเชิงพาณิชย์ ค่าใช้จ่ายมีเฉพาะฮาร์ดแวร์หรือคลาวด์ที่คุณใช้รันเท่านั้น

จำเป็นต้องมี GPU หรือไม่?

ไม่จำเป็น แต่ GPU ช่วยให้เร็วขึ้น รุ่น 4-bit สามารถรันบน GPU 8GB หรือ Mac ที่มี unified memory 16GB ได้ หากใช้ CPU อย่างเดียวก็รันได้ แต่จะช้ากว่า

ใช้ Gemma 4 12B ใน Google AI Studio ได้ไหม?

ปัจจุบันยังไม่ได้ AI Studio โฮสต์รุ่น 31B และ 26B สำหรับแชทฟรีผ่านเบราว์เซอร์ ส่วน 12B ถูกออกแบบมาสำหรับ local และ on-device usage จึงต้องรันเองตามวิธีด้านบน

Local API ต้องใช้ API key หรือไม่?

ไม่ต้องใช้ Ollama และ llama.cpp ให้บริการผ่าน localhost โดยไม่มี key หากเครื่องมือบางตัวบังคับให้กรอก key ให้ใส่ placeholder string ได้ server ในเครื่องจะละเว้นค่า key นั้น

ใช้กับโค้ด OpenAI เดิมได้ไหม?

ได้ ทั้ง Ollama และ llama.cpp เปิด endpoint ที่เข้ากันได้กับ OpenAI เพียงเปลี่ยน base URL เป็น:

http://localhost:11434/v1
Enter fullscreen mode Exit fullscreen mode

สำหรับ Ollama หรือ:

http://localhost:8080/v1
Enter fullscreen mode Exit fullscreen mode

สำหรับ llama.cpp

เรียกใช้ความสามารถด้านรูปภาพและเสียงอย่างไร?

ใช้ Transformers, LM Studio หรือ AI Edge ที่รองรับ multimodal input เพิ่ม content แบบรูปภาพก่อน prompt และเพิ่ม content แบบเสียงหลังจากนั้น

Ollama หรือ llama.cpp อันไหนเร็วกว่า?

ทั้งสองใช้แนวทาง runtime ใกล้เคียงกัน llama.cpp มี overhead ต่ำกว่าและมี flag สำหรับ tuning มากกว่า ส่วน Ollama ติดตั้งและใช้ง่ายกว่า สำหรับผู้ใช้ส่วนใหญ่ ความแตกต่างด้านความเร็วไม่ใช่ปัจจัยหลักเท่ากับความสะดวกในการตั้งค่า

Top comments (0)