สรุปโดยย่อ
คู่มือนี้ช่วยให้คุณเลือก LLM ในเครื่องสำหรับปี 2026 โดยดูจาก VRAM, ความหน่วง, ประเภทงาน และวิธีทดสอบเอนด์พอยต์ให้เหมือน API ที่โฮสต์ไว้ด้วย Apidog
- โมเดล LLM ในเครื่องที่ “ดีที่สุด” ขึ้นอยู่กับงบประมาณ VRAM, เป้าหมายด้าน latency และงานที่ต้องทำ เช่น coding, reasoning, multilingual, vision หรือ RAG
- สำหรับ GPU 24 GB: Qwen 3.6 32B และ DeepSeek V4 Flash เป็นตัวเลือกที่สมดุลที่สุด
- สำหรับ 8 GB หรือต่ำกว่า: Gemma 4 9B และ Llama 5.1 8B เหมาะกว่า
- สำหรับ reasoning หรือ coding หนัก ๆ: DeepSeek V4 Pro แบบ quantized หรือ GLM 5 เป็นตัวเลือกที่ควรทดสอบ
- ใช้ Ollama, vLLM หรือ LM Studio เพื่อเปิดเอนด์พอยต์ HTTP ที่เข้ากันได้กับ OpenAI แล้วทดสอบด้วย Apidog
- ใช้ Apidog เพื่อบันทึก request, replay, mock และวัด performance ของโมเดลในเครื่องโดยไม่ใช้ token จากบริการ hosted LLM
หากต้องการลงลึกเฉพาะ DeepSeek V4 ดูเพิ่มเติมได้ที่ คู่มือการติดตั้ง DeepSeek V4 ในเครื่อง และ ภาพรวม DeepSeek V4
ทำไม LLM ในเครื่องจึงกลับมาสำคัญในปี 2026
เมื่อไม่กี่ปีก่อน “local LLM” มักหมายถึงคุณภาพต่ำกว่าโมเดลที่โฮสต์ไว้มาก แต่ในปี 2026 โมเดลแบบ open-weight หลายตัวใกล้เคียงกับระบบระดับ GPT-4 ในงานทั่วไป เช่น classification, retrieval, tool calling และ structured output
เหตุผลหลักที่ทีมพัฒนากลับมาสนใจ local LLM:
ควบคุมข้อมูลได้มากขึ้น
ข้อมูลไม่ต้องออกจากเครื่องหรือ VPC ของคุณลดต้นทุน inference ระยะยาว
หาก traffic สูงพอ ค่าไฟและค่าเครื่องอาจถูกกว่าค่า API รายเดือนลด vendor lock-in
ถ้าใช้ API format ที่เข้ากันได้กับ OpenAI คุณสามารถสลับ hosted/local ได้ง่ายขึ้นทดสอบและ debug ได้เอง
คุณเห็น raw request, response, latency และ token throughput ได้ครบ
จุดที่ยากไม่ใช่แค่ “เลือกโมเดลไหนดี” แต่คือ “จะทำให้โมเดลในเครื่อง behave เหมือน API production ได้อย่างไร” เช่น replay request, mock ใน CI, วัด latency และเปรียบเทียบ response ระหว่างโมเดล
เกณฑ์ที่ใช้เลือกโมเดล
รายการนี้ไม่ได้คัดลอกจาก leaderboard ตรง ๆ แต่ดูจากปัจจัยที่ใช้งานจริง:
- มี open weights และ license ที่เหมาะกับ production เช่น MIT, Apache 2.0 หรือ community license ที่อนุญาตให้ใช้งานเชิงพาณิชย์
- ยังมีการดูแลต่อเนื่องในปี 2026
- ให้บริการผ่าน Ollama, vLLM หรือ LM Studio ได้
- มี OpenAI-compatible endpoint
- แข็งแรงในงานอย่างน้อยหนึ่งกลุ่ม เช่น reasoning, coding, multilingual, vision, long context หรือ tool calling
- รันได้บน hardware ที่ทีมทั่วไปเข้าถึงได้ เช่น GPU 24 GB หรือ Apple silicon
เราใช้ prompt ชุดเดียวกันทดสอบบน 4090 และ Mac Studio M3 Ultra จากนั้นเทียบกับข้อมูลจาก LMSYS arena และ Hugging Face Open LLM Leaderboard
ตารางเลือกโมเดลแบบเร็ว
| โมเดล | เหมาะกับ | Hardware โดยประมาณ | วิธีรันที่แนะนำ |
|---|---|---|---|
| DeepSeek V4 Pro | reasoning หนัก, agent ขั้นสูง | 192 GB unified memory หรือ 2x 80 GB GPU | vLLM / custom serving |
| DeepSeek V4 Flash | local agent, coding assistant, RAG | 24 GB VRAM ที่ Q4 | Ollama / vLLM |
| Qwen 3.6 32B | multilingual, tool calling, structured output | 24 GB VRAM ที่ Q4 | Ollama / vLLM |
| GLM 5.1 | tool calling, JSON pipeline, extraction | ขึ้นกับ quantization | Ollama / vLLM |
| Gemma 4 9B | เครื่องเล็ก, latency ต่ำ | 8–16 GB | Ollama / LM Studio |
| Llama 5.1 8B | desktop assistant, prototype | 8–16 GB | Ollama / LM Studio |
โมเดล LLM ในเครื่องที่คุ้มค่าแก่การรันในปี 2026
1. DeepSeek V4 Pro
DeepSeek V4 Pro เป็นโมเดลระดับใหญ่ มีรูปแบบ 4-bit GGUF และ AWQ บน Hugging Face โมเดลเต็มมีพารามิเตอร์ 1.6T โดยมี active parameters 49B ทำให้ยังเหมาะกับเครื่องระดับสูงหรือ data center มากกว่า desktop ทั่วไป
เมื่อ quantized เป็น Q4 โมเดลนี้ต้องการ hardware ประมาณ:
- GPU H100 80 GB สองตัว
- หรือ Mac Studio M3 Ultra ที่มี unified memory 192 GB
สำหรับทีมส่วนใหญ่ DeepSeek V4 Pro อาจยังไม่ใช่โมเดลที่รัน local ได้ทุกวัน แต่มีประโยชน์เป็น benchmark สำหรับ reasoning และใช้เป็นต้นทางของ distilled model หลายตัว
หากต้องการใช้ผ่าน API ที่ compatible กับ OpenAI ดูรายละเอียดใน วิธีใช้ DeepSeek V4 API
เหมาะกับ
- reasoning agent
- workflow ที่ต้องการ reasoning ลึก
- ทีมที่มี Mac Studio M3 Ultra หรือ GPU memory สูง
แหล่งดาวน์โหลด
DeepSeek V4 Pro GGUF บน Hugging Face
2. DeepSeek V4 Flash
DeepSeek V4 Flash เป็นรุ่นที่เหมาะกับการใช้งานจริงมากกว่า มีขนาดรวม 284B และ active parameters 13B เมื่อ quantized 4-bit สามารถรันบน VRAM 24 GB พร้อม context window 64K ได้
บน 4090 throughput เฉลี่ยอยู่ประมาณ 28 tokens/s ในงานสร้างข้อความยาว
ถ้าคุณมี GPU 24 GB และต้องการโมเดลเดียวสำหรับ local agent, coding assistant หรือ RAG pipeline ให้เริ่มจากตัวนี้ก่อน
ดูขั้นตอนติดตั้งแบบละเอียดได้ที่ คู่มือการติดตั้ง DeepSeek V4 ในเครื่อง
เหมาะกับ
- local coding assistant
- RAG generator
- agent ที่ต้อง reasoning ทั่วไป
- prototype ที่ต้องการคุณภาพสูงกว่าโมเดล 7B/8B
Hardware
- 24 GB VRAM ที่ Q4
- 16 GB VRAM ที่ Q3 แต่คุณภาพลดลง
ตัวอย่างการติดตั้ง
ollama pull deepseek-v4-flash
ollama serve
แหล่งดาวน์โหลด
DeepSeek V4 Flash บน Hugging Face
3. Qwen 3.6 32B
Qwen เป็นตระกูล open-weight ที่เสถียรและใช้งานจริงได้ดี โดยเฉพาะงานหลายภาษา Qwen 3.6 32B ที่ Q4 สามารถรันบน VRAM 24 GB และมี performance ดีในงาน reasoning, tool calling และ structured output
จุดแข็งสำคัญคือ multilingual support เช่น จีน ญี่ปุ่น เกาหลี และอาหรับ ซึ่งหลายโมเดลตะวันตกยังทำได้ไม่สม่ำเสมอ
หากผลิตภัณฑ์ของคุณมีผู้ใช้หลายภาษา และต้องการโมเดลเดียวที่ใช้ได้ทั้ง reasoning และ tool calling Qwen 3.6 32B เป็นตัวเลือกที่ควร benchmark
เหมาะกับ
- ผลิตภัณฑ์หลายภาษา
- structured output
- tool calling
- JSON response
- workload ที่ต้องบาลานซ์คุณภาพกับต้นทุน hardware
Hardware
- 24 GB VRAM ที่ Q4
ตัวอย่างการติดตั้ง
ollama pull qwen3.6:32b
ollama serve
แหล่งดาวน์โหลด
4. GLM 5.1
GLM 5.1 ของ Zhipu AI ทำได้ดีมากในงาน tool calling, structured extraction และ JSON-mode pipeline โดยเฉพาะ workload ที่ต้องให้โมเดลเรียกเครื่องมือหรือทำตาม schema
ข้อควรระวังคือ coding อาจไม่ใช่จุดแข็งที่สุดเมื่อเทียบกับ DeepSeek หรือ Qwen แต่สำหรับงาน agent ที่ต้องเรียก tool และคืนค่าเป็น JSON ที่ตรวจสอบได้ GLM 5.1 เป็นตัวเลือกที่น่าสนใจ
เหมาะกับ
- tool-calling agent
- structured data extraction
- JSON schema workflow
- pipeline ที่ต้อง parse response อัตโนมัติ
วิธีให้บริการ local LLM เป็น OpenAI-compatible API
หลังจากรันโมเดลได้แล้ว ขั้นตอนต่อไปคือเปิด HTTP endpoint ให้แอปของคุณเรียกใช้งานได้เหมือน hosted API
ตัวเลือกหลักมี 3 แบบ:
1. Ollama
เหมาะกับ developer และ prototype
ollama serve
Ollama เปิด endpoint ที่:
http://localhost:11434/v1
คุณสามารถเปลี่ยนจาก OpenAI API มาเป็น Ollama ได้โดยเปลี่ยนแค่ base_url
2. vLLM
เหมาะกับ production มากกว่า เพราะรองรับ batching และ throughput สูงกว่า
ตัวอย่าง endpoint ทั่วไป:
http://localhost:8000/v1
ใช้ vLLM เมื่อคุณต้องการ:
- latency ต่ำ
- throughput สูง
- concurrent requests
- serving หลาย user
3. LM Studio
เหมาะกับนักพัฒนาที่ต้องการ GUI และทดลองหลายโมเดลเร็ว ๆ เมื่อเปิด local server แล้ว LM Studio จะ expose HTTP endpoint ให้เรียกผ่าน client ได้
ตัวอย่างเรียก local LLM ด้วย Python
โค้ดฝั่ง client เหมือนการเรียก OpenAI API ต่างกันที่ base_url และ model
from openai import OpenAI
client = OpenAI(
api_key="ollama", # Ollama ไม่ตรวจ key
base_url="http://localhost:11434/v1",
)
resp = client.chat.completions.create(
model="qwen3.6:32b",
messages=[
{
"role": "user",
"content": "Summarize the differences between MoE and dense models in three bullets."
}
],
temperature=0.3,
)
print(resp.choices[0].message.content)
ถ้าต้องการสลับโมเดล ให้เปลี่ยนแค่ชื่อโมเดล:
model="deepseek-v4-flash"
หรือ:
model="llama5.1:8b"
รูปแบบนี้อธิบายเพิ่มเติมไว้ใน วิธีใช้ DeepSeek V4 ฟรี
ทดสอบ local LLM ด้วย Apidog
ส่วนที่สำคัญสำหรับ production คือการ debug และ repeatability
เมื่อ hosted API มีปัญหา คุณดู status page ได้ แต่เมื่อ local model ล่ม คุณต้อง debug เอง เช่น:
- request body ถูกต้องหรือไม่
- model ตอบ streaming ผิด format หรือไม่
- tool call JSON parse ได้หรือไม่
- latency สูงเพราะ context ยาวเกินไปหรือไม่
- Q4 กับ Q5 ต่างกันแค่ไหน
- CI ควรเรียกโมเดลจริงหรือ mock
Apidog ช่วยให้คุณ treat Ollama หรือ vLLM endpoint เหมือน API ปกติ
ขั้นตอนใช้งาน Apidog กับ Ollama
- เปิด Ollama
ollama serve
- ดึงโมเดลที่ต้องการ
ollama pull qwen3.6:32b
- สร้าง request ใน Apidog
ใช้ URL:
POST http://localhost:11434/v1/chat/completions
- ตั้ง header
Content-Type: application/json
Authorization: Bearer ollama
- ใส่ body
{
"model": "qwen3.6:32b",
"messages": [
{
"role": "user",
"content": "Explain KV cache in local LLM inference."
}
],
"temperature": 0.3,
"stream": false
}
- กด Send แล้วบันทึก request เป็น canonical test case
Workflow ที่ควรทำกับ local LLM
1. บันทึก canonical requests
สร้างชุด request สำหรับงานหลักของระบบ เช่น:
- summarization
- RAG answer
- classification
- tool calling
- JSON extraction
- code generation
เก็บค่าเหล่านี้ให้คงที่:
{
"temperature": 0.2,
"max_tokens": 800,
"stream": false
}
หลังเปลี่ยนโมเดลหรือ quantization ให้ replay request เดิมเพื่อดู regression
2. เปรียบเทียบ output ระหว่างโมเดล
ทดสอบ prompt เดียวกันกับหลายโมเดล เช่น:
- Qwen 3.6 32B
- DeepSeek V4 Flash
- GLM 5.1
- Llama 5.1 8B
แล้วดูว่า response ต่างกันตรงไหน โดยเฉพาะ:
- JSON valid หรือไม่
- tool call schema ตรงหรือไม่
- hallucination เพิ่มขึ้นหรือไม่
- latency ต่างกันเท่าไร
3. Mock endpoint สำหรับ CI
อย่าให้ CI pipeline เรียกโมเดลจริงทุกครั้ง เพราะอาจเจอปัญหา:
- GPU ไม่พร้อม
- model load ช้า
- OOM
- driver crash
- test flaky
ให้ mock response ด้วย Apidog เพื่อให้ unit/integration test ไม่ขึ้นกับ hardware
4. วัด latency และ token throughput
ค่าที่ควรเก็บทุกครั้ง:
- time to first token
- total latency
- tokens per second
- prompt tokens
- completion tokens
- memory usage
- context length
ใช้ข้อมูลนี้ตัดสินใจว่า Q4, Q5 หรือโมเดลเล็กกว่าคุ้มกว่าหรือไม่
5. ทำเอกสาร API ภายในทีม
ถ้าทีมใช้ local LLM ร่วมกัน ให้ document endpoint เหมือน API production:
POST /v1/chat/completions
ระบุ:
- base URL
- model name
- request schema
- response schema
- error cases
- streaming behavior
- tool calling format
Apidog export เป็น OpenAPI 3.1 ได้ และเหมาะกับ workflow เดียวกับที่อธิบายไว้ใน Apidog เป็นทางเลือก Postman ที่ดีที่สุด
ข้อผิดพลาดที่พบบ่อยเมื่อรัน LLM ในเครื่อง
1. เลือกโมเดลใหญ่ที่สุดเท่าที่ GPU ใส่ได้
โมเดล 32B ที่ Q3 อาจแย่กว่าโมเดล 14B ที่ Q5 ได้ คุณภาพ quantization สำคัญกว่าจำนวนพารามิเตอร์เสมอเมื่ออยู่ในข้อจำกัด VRAM
2. ลืมคิดเรื่อง KV cache
context ยาวขึ้นใช้ VRAM มากขึ้น ตัวอย่างเช่น context 32K บนโมเดล 32B อาจใช้ KV cache หลาย GB ก่อนเริ่ม generate
3. ใช้ fine-tune จากแหล่งที่ไม่น่าเชื่อถือ
ควรใช้ model card ต้นทางหรือ fine-tune จากผู้เผยแพร่ที่ตรวจสอบได้ เพราะ malicious fine-tune เป็นความเสี่ยงจริง
4. ไม่ทำ mock layer
local model อาจล่มได้เสมอ เช่น OOM, GPU throttle, driver crash หรือ process ถูก kill หาก CI เรียกโมเดลตรง ๆ test จะไม่เสถียร ควร mock endpoint ด้วย Apidog
5. คิดว่า tool calling format เหมือนกันทุกโมเดล
Llama, Qwen, DeepSeek และ GLM อาจคืน JSON หรือ tool call format ต่างกันเล็กน้อย ต้องทดสอบก่อนใช้ใน production
ตัวอย่าง use case จริง
Customer support agent
สตาร์ทอัพที่ใช้ customer support agent ย้ายจาก GPT-5.5 ไปยัง Qwen 3.6 32B บน 4090 ตัวเดียว latency ยังต่ำกว่า 800 ms และลดค่า inference รายเดือนจาก 9,400 ดอลลาร์เป็น 0 ดอลลาร์ โดยใช้ Apidog mocks เพื่อทำให้ CI deterministic
Voice assistant
นักพัฒนาอิสระที่สร้าง voice assistant ใช้ Gemma 4 9B บน M2 Pro ที่มี unified memory 16 GB และได้ throughput ประมาณ 60 tokens/s ซึ่งเพียงพอให้ assistant ตอบได้ลื่น
Regulatory document summarization
ทีมวิจัย fintech ใช้ DeepSeek V4 Flash บน 4090 สองตัวสำหรับสรุปเอกสารกำกับดูแลแบบ batch ทุกคืน ต้นทุนหลักคือค่าไฟและเวลาบำรุงรักษาเครื่อง
Checklist ก่อนใช้ local LLM ใน production
ก่อน deploy ให้ตรวจรายการนี้:
- [ ] เลือกโมเดลตาม VRAM จริง ไม่ใช่ตาม leaderboard อย่างเดียว
- [ ] ทดสอบ quantization หลายระดับ เช่น Q4 และ Q5
- [ ] ตั้ง OpenAI-compatible endpoint
- [ ] เก็บ canonical requests
- [ ] ทำ replay test หลังเปลี่ยนโมเดล
- [ ] mock endpoint สำหรับ CI
- [ ] วัด latency และ tokens/s
- [ ] ตรวจ JSON schema และ tool call format
- [ ] document endpoint ให้ทีมใช้งานร่วมกัน
- [ ] มี fallback ไปยัง hosted model หาก local endpoint ล่ม
บทสรุป
LLM ในเครื่องที่ดีที่สุดในปี 2026 คือโมเดลที่พอดีกับ VRAM, latency budget และคุณภาพที่ product ต้องการ
แนวทางเลือกแบบเร็ว:
- มี GPU 24 GB: เริ่มจาก Qwen 3.6 32B หรือ DeepSeek V4 Flash
- มีเครื่องเล็กหรือ Mac 16 GB: เริ่มจาก Llama 5.1 8B หรือ Gemma 4 9B
- เน้น tool calling และ structured extraction: ทดสอบ GLM 5.1
- เน้น reasoning สูงสุดและมี hardware ใหญ่: พิจารณา DeepSeek V4 Pro
ขั้นตอนถัดไป:
ollama pull qwen3.6:32b
ollama serve
จากนั้นชี้ Apidog ไปที่:
http://localhost:11434/v1
แล้วเริ่มบันทึก request, replay, mock และวัด performance เหมือน API production
คำถามที่พบบ่อย
LLM ในเครื่องที่ดีที่สุดสำหรับ GPU 24 GB ในปี 2026 คืออะไร?
สำหรับ workload ส่วนใหญ่คือ Qwen 3.6 32B ที่ Q4 หรือ DeepSeek V4 Flash ที่ Q4 เลือก Qwen หากต้องการ multilingual และ tool calling เลือก DeepSeek V4 Flash หากเน้น reasoning และ coding ดูรายละเอียดเพิ่มเติมได้ใน คู่มือ DeepSeek V4 ในเครื่อง
รัน LLM ในเครื่องบน Mac ได้หรือไม่?
ได้ Apple silicon ที่มี unified memory 16 GB ขึ้นไปสามารถรัน Llama 5.1 8B และ Gemma 4 9B ได้ ส่วน M3 Ultra ที่มี 192 GB สามารถรัน DeepSeek V4 Pro ที่ Q4 ได้ ใช้ Ollama หรือ LM Studio เป็นตัวเริ่มต้น
จะทดสอบ local LLM เหมือนทดสอบ OpenAI ได้อย่างไร?
ใช้ OpenAI-compatible client แล้วเปลี่ยน base_url เป็น local endpoint เช่น:
http://localhost:11434/v1
สำหรับ Ollama หรือ:
http://localhost:8000/v1
สำหรับ vLLM จากนั้นสร้าง request เดียวกันใน Apidog เพื่อ replay และเปรียบเทียบผลลัพธ์
คุณภาพของ local LLM เทียบ hosted model ได้จริงหรือ?
สำหรับงาน reasoning, coding, classification, retrieval และ tool calling โมเดล open-weight ชั้นนำเข้าใกล้ hosted model มากแล้ว แต่สำหรับ vision, long-context document QA และ creative writing บางประเภท hosted model ยังได้เปรียบ
ค่าใช้จ่ายคุ้มไหม?
หากมีปริมาณใช้งานสูง local inference มักคุ้มกว่า ตัวอย่างเช่น 4090 ที่รัน DeepSeek V4 Flash มีต้นทุนหลักเป็นค่าไฟ ขณะที่ hosted model ในปริมาณเดียวกันอาจมีค่าใช้จ่ายหลายร้อยถึงหลายพันดอลลาร์ต่อเดือน จุดคุ้มทุนมักอยู่ราวหลายล้าน token ต่อเดือน
จะสลับ production ระหว่าง hosted model กับ local model ได้อย่างไร?
ใช้ OpenAI-compatible client เหมือนเดิม แล้วเปลี่ยน:
base_urlmodel- API key ตาม provider
ก่อนสลับจริง ให้ใช้ replay test เพื่อดู behavioral difference ก่อนที่ผู้ใช้จะเจอปัญหา ดู workflow เพิ่มเติมใน การทดสอบ API โดยไม่ต้องใช้ Postman
ดู leaderboard ล่าสุดได้ที่ไหน?
ดูได้จาก Hugging Face Open LLM Leaderboard และ LMSYS Chatbot Arena เพราะทั้งสองวัดคนละมุมและควรใช้ประกอบกันในการเลือกโมเดลจริง




Top comments (0)