Thanawat Wongchai

Posted on May 8 • Originally published at apidog.com

สุดยอด LLM ภาษาไทย 2026

สรุปโดยย่อ

คู่มือนี้ช่วยให้คุณเลือก LLM ในเครื่องสำหรับปี 2026 โดยดูจาก VRAM, ความหน่วง, ประเภทงาน และวิธีทดสอบเอนด์พอยต์ให้เหมือน API ที่โฮสต์ไว้ด้วย Apidog

ลองใช้ Apidog วันนี้

โมเดล LLM ในเครื่องที่ “ดีที่สุด” ขึ้นอยู่กับงบประมาณ VRAM, เป้าหมายด้าน latency และงานที่ต้องทำ เช่น coding, reasoning, multilingual, vision หรือ RAG
สำหรับ GPU 24 GB: Qwen 3.6 32B และ DeepSeek V4 Flash เป็นตัวเลือกที่สมดุลที่สุด
สำหรับ 8 GB หรือต่ำกว่า: Gemma 4 9B และ Llama 5.1 8B เหมาะกว่า
สำหรับ reasoning หรือ coding หนัก ๆ: DeepSeek V4 Pro แบบ quantized หรือ GLM 5 เป็นตัวเลือกที่ควรทดสอบ
ใช้ Ollama, vLLM หรือ LM Studio เพื่อเปิดเอนด์พอยต์ HTTP ที่เข้ากันได้กับ OpenAI แล้วทดสอบด้วย Apidog
ใช้ Apidog เพื่อบันทึก request, replay, mock และวัด performance ของโมเดลในเครื่องโดยไม่ใช้ token จากบริการ hosted LLM

หากต้องการลงลึกเฉพาะ DeepSeek V4 ดูเพิ่มเติมได้ที่ คู่มือการติดตั้ง DeepSeek V4 ในเครื่อง และ ภาพรวม DeepSeek V4

ทำไม LLM ในเครื่องจึงกลับมาสำคัญในปี 2026

เมื่อไม่กี่ปีก่อน “local LLM” มักหมายถึงคุณภาพต่ำกว่าโมเดลที่โฮสต์ไว้มาก แต่ในปี 2026 โมเดลแบบ open-weight หลายตัวใกล้เคียงกับระบบระดับ GPT-4 ในงานทั่วไป เช่น classification, retrieval, tool calling และ structured output

เหตุผลหลักที่ทีมพัฒนากลับมาสนใจ local LLM:

ควบคุมข้อมูลได้มากขึ้น

ข้อมูลไม่ต้องออกจากเครื่องหรือ VPC ของคุณ
ลดต้นทุน inference ระยะยาว

หาก traffic สูงพอ ค่าไฟและค่าเครื่องอาจถูกกว่าค่า API รายเดือน
ลด vendor lock-in

ถ้าใช้ API format ที่เข้ากันได้กับ OpenAI คุณสามารถสลับ hosted/local ได้ง่ายขึ้น
ทดสอบและ debug ได้เอง

คุณเห็น raw request, response, latency และ token throughput ได้ครบ

จุดที่ยากไม่ใช่แค่ “เลือกโมเดลไหนดี” แต่คือ “จะทำให้โมเดลในเครื่อง behave เหมือน API production ได้อย่างไร” เช่น replay request, mock ใน CI, วัด latency และเปรียบเทียบ response ระหว่างโมเดล

เกณฑ์ที่ใช้เลือกโมเดล

รายการนี้ไม่ได้คัดลอกจาก leaderboard ตรง ๆ แต่ดูจากปัจจัยที่ใช้งานจริง:

มี open weights และ license ที่เหมาะกับ production เช่น MIT, Apache 2.0 หรือ community license ที่อนุญาตให้ใช้งานเชิงพาณิชย์
ยังมีการดูแลต่อเนื่องในปี 2026
ให้บริการผ่าน Ollama, vLLM หรือ LM Studio ได้
มี OpenAI-compatible endpoint
แข็งแรงในงานอย่างน้อยหนึ่งกลุ่ม เช่น reasoning, coding, multilingual, vision, long context หรือ tool calling
รันได้บน hardware ที่ทีมทั่วไปเข้าถึงได้ เช่น GPU 24 GB หรือ Apple silicon

เราใช้ prompt ชุดเดียวกันทดสอบบน 4090 และ Mac Studio M3 Ultra จากนั้นเทียบกับข้อมูลจาก LMSYS arena และ Hugging Face Open LLM Leaderboard

ตารางเลือกโมเดลแบบเร็ว

โมเดล	เหมาะกับ	Hardware โดยประมาณ	วิธีรันที่แนะนำ
DeepSeek V4 Pro	reasoning หนัก, agent ขั้นสูง	192 GB unified memory หรือ 2x 80 GB GPU	vLLM / custom serving
DeepSeek V4 Flash	local agent, coding assistant, RAG	24 GB VRAM ที่ Q4	Ollama / vLLM
Qwen 3.6 32B	multilingual, tool calling, structured output	24 GB VRAM ที่ Q4	Ollama / vLLM
GLM 5.1	tool calling, JSON pipeline, extraction	ขึ้นกับ quantization	Ollama / vLLM
Gemma 4 9B	เครื่องเล็ก, latency ต่ำ	8–16 GB	Ollama / LM Studio
Llama 5.1 8B	desktop assistant, prototype	8–16 GB	Ollama / LM Studio

โมเดล LLM ในเครื่องที่คุ้มค่าแก่การรันในปี 2026

1. DeepSeek V4 Pro

DeepSeek V4 Pro เป็นโมเดลระดับใหญ่ มีรูปแบบ 4-bit GGUF และ AWQ บน Hugging Face โมเดลเต็มมีพารามิเตอร์ 1.6T โดยมี active parameters 49B ทำให้ยังเหมาะกับเครื่องระดับสูงหรือ data center มากกว่า desktop ทั่วไป

เมื่อ quantized เป็น Q4 โมเดลนี้ต้องการ hardware ประมาณ:

GPU H100 80 GB สองตัว
หรือ Mac Studio M3 Ultra ที่มี unified memory 192 GB

สำหรับทีมส่วนใหญ่ DeepSeek V4 Pro อาจยังไม่ใช่โมเดลที่รัน local ได้ทุกวัน แต่มีประโยชน์เป็น benchmark สำหรับ reasoning และใช้เป็นต้นทางของ distilled model หลายตัว

หากต้องการใช้ผ่าน API ที่ compatible กับ OpenAI ดูรายละเอียดใน วิธีใช้ DeepSeek V4 API

เหมาะกับ

reasoning agent
workflow ที่ต้องการ reasoning ลึก
ทีมที่มี Mac Studio M3 Ultra หรือ GPU memory สูง

แหล่งดาวน์โหลด

DeepSeek V4 Pro GGUF บน Hugging Face

2. DeepSeek V4 Flash

DeepSeek V4 Flash เป็นรุ่นที่เหมาะกับการใช้งานจริงมากกว่า มีขนาดรวม 284B และ active parameters 13B เมื่อ quantized 4-bit สามารถรันบน VRAM 24 GB พร้อม context window 64K ได้

บน 4090 throughput เฉลี่ยอยู่ประมาณ 28 tokens/s ในงานสร้างข้อความยาว

ถ้าคุณมี GPU 24 GB และต้องการโมเดลเดียวสำหรับ local agent, coding assistant หรือ RAG pipeline ให้เริ่มจากตัวนี้ก่อน

ดูขั้นตอนติดตั้งแบบละเอียดได้ที่ คู่มือการติดตั้ง DeepSeek V4 ในเครื่อง

เหมาะกับ

local coding assistant
RAG generator
agent ที่ต้อง reasoning ทั่วไป
prototype ที่ต้องการคุณภาพสูงกว่าโมเดล 7B/8B

Hardware

24 GB VRAM ที่ Q4
16 GB VRAM ที่ Q3 แต่คุณภาพลดลง

ตัวอย่างการติดตั้ง

ollama pull deepseek-v4-flash
ollama serve

แหล่งดาวน์โหลด

DeepSeek V4 Flash บน Hugging Face

3. Qwen 3.6 32B

Qwen เป็นตระกูล open-weight ที่เสถียรและใช้งานจริงได้ดี โดยเฉพาะงานหลายภาษา Qwen 3.6 32B ที่ Q4 สามารถรันบน VRAM 24 GB และมี performance ดีในงาน reasoning, tool calling และ structured output

จุดแข็งสำคัญคือ multilingual support เช่น จีน ญี่ปุ่น เกาหลี และอาหรับ ซึ่งหลายโมเดลตะวันตกยังทำได้ไม่สม่ำเสมอ

หากผลิตภัณฑ์ของคุณมีผู้ใช้หลายภาษา และต้องการโมเดลเดียวที่ใช้ได้ทั้ง reasoning และ tool calling Qwen 3.6 32B เป็นตัวเลือกที่ควร benchmark

เหมาะกับ

ผลิตภัณฑ์หลายภาษา
structured output
tool calling
JSON response
workload ที่ต้องบาลานซ์คุณภาพกับต้นทุน hardware

Hardware

24 GB VRAM ที่ Q4

ตัวอย่างการติดตั้ง

ollama pull qwen3.6:32b
ollama serve

แหล่งดาวน์โหลด

Qwen 3.6 บน Hugging Face

4. GLM 5.1

GLM 5.1 ของ Zhipu AI ทำได้ดีมากในงาน tool calling, structured extraction และ JSON-mode pipeline โดยเฉพาะ workload ที่ต้องให้โมเดลเรียกเครื่องมือหรือทำตาม schema

ข้อควรระวังคือ coding อาจไม่ใช่จุดแข็งที่สุดเมื่อเทียบกับ DeepSeek หรือ Qwen แต่สำหรับงาน agent ที่ต้องเรียก tool และคืนค่าเป็น JSON ที่ตรวจสอบได้ GLM 5.1 เป็นตัวเลือกที่น่าสนใจ

เหมาะกับ

tool-calling agent
structured data extraction
JSON schema workflow
pipeline ที่ต้อง parse response อัตโนมัติ

วิธีให้บริการ local LLM เป็น OpenAI-compatible API

หลังจากรันโมเดลได้แล้ว ขั้นตอนต่อไปคือเปิด HTTP endpoint ให้แอปของคุณเรียกใช้งานได้เหมือน hosted API

ตัวเลือกหลักมี 3 แบบ:

1. Ollama

เหมาะกับ developer และ prototype

ollama serve

Ollama เปิด endpoint ที่:

http://localhost:11434/v1

คุณสามารถเปลี่ยนจาก OpenAI API มาเป็น Ollama ได้โดยเปลี่ยนแค่ base_url

2. vLLM

เหมาะกับ production มากกว่า เพราะรองรับ batching และ throughput สูงกว่า

ตัวอย่าง endpoint ทั่วไป:

http://localhost:8000/v1

ใช้ vLLM เมื่อคุณต้องการ:

latency ต่ำ
throughput สูง
concurrent requests
serving หลาย user

3. LM Studio

เหมาะกับนักพัฒนาที่ต้องการ GUI และทดลองหลายโมเดลเร็ว ๆ เมื่อเปิด local server แล้ว LM Studio จะ expose HTTP endpoint ให้เรียกผ่าน client ได้

ตัวอย่างเรียก local LLM ด้วย Python

โค้ดฝั่ง client เหมือนการเรียก OpenAI API ต่างกันที่ base_url และ model

from openai import OpenAI

client = OpenAI(
    api_key="ollama",  # Ollama ไม่ตรวจ key
    base_url="http://localhost:11434/v1",
)

resp = client.chat.completions.create(
    model="qwen3.6:32b",
    messages=[
        {
            "role": "user",
            "content": "Summarize the differences between MoE and dense models in three bullets."
        }
    ],
    temperature=0.3,
)

print(resp.choices[0].message.content)

ถ้าต้องการสลับโมเดล ให้เปลี่ยนแค่ชื่อโมเดล:

model="deepseek-v4-flash"

หรือ:

model="llama5.1:8b"

รูปแบบนี้อธิบายเพิ่มเติมไว้ใน วิธีใช้ DeepSeek V4 ฟรี

ทดสอบ local LLM ด้วย Apidog

ส่วนที่สำคัญสำหรับ production คือการ debug และ repeatability

เมื่อ hosted API มีปัญหา คุณดู status page ได้ แต่เมื่อ local model ล่ม คุณต้อง debug เอง เช่น:

request body ถูกต้องหรือไม่
model ตอบ streaming ผิด format หรือไม่
tool call JSON parse ได้หรือไม่
latency สูงเพราะ context ยาวเกินไปหรือไม่
Q4 กับ Q5 ต่างกันแค่ไหน
CI ควรเรียกโมเดลจริงหรือ mock

Apidog ช่วยให้คุณ treat Ollama หรือ vLLM endpoint เหมือน API ปกติ

ขั้นตอนใช้งาน Apidog กับ Ollama

เปิด Ollama

ollama serve

ดึงโมเดลที่ต้องการ

ollama pull qwen3.6:32b

สร้าง request ใน Apidog

ใช้ URL:

POST http://localhost:11434/v1/chat/completions

ตั้ง header

Content-Type: application/json
Authorization: Bearer ollama

ใส่ body

{
  "model": "qwen3.6:32b",
  "messages": [
    {
      "role": "user",
      "content": "Explain KV cache in local LLM inference."
    }
  ],
  "temperature": 0.3,
  "stream": false
}

กด Send แล้วบันทึก request เป็น canonical test case

Workflow ที่ควรทำกับ local LLM

1. บันทึก canonical requests

สร้างชุด request สำหรับงานหลักของระบบ เช่น:

summarization
RAG answer
classification
tool calling
JSON extraction
code generation

เก็บค่าเหล่านี้ให้คงที่:

{
  "temperature": 0.2,
  "max_tokens": 800,
  "stream": false
}

หลังเปลี่ยนโมเดลหรือ quantization ให้ replay request เดิมเพื่อดู regression

2. เปรียบเทียบ output ระหว่างโมเดล

ทดสอบ prompt เดียวกันกับหลายโมเดล เช่น:

Qwen 3.6 32B
DeepSeek V4 Flash
GLM 5.1
Llama 5.1 8B

แล้วดูว่า response ต่างกันตรงไหน โดยเฉพาะ:

JSON valid หรือไม่
tool call schema ตรงหรือไม่
hallucination เพิ่มขึ้นหรือไม่
latency ต่างกันเท่าไร

3. Mock endpoint สำหรับ CI

อย่าให้ CI pipeline เรียกโมเดลจริงทุกครั้ง เพราะอาจเจอปัญหา:

GPU ไม่พร้อม
model load ช้า
OOM
driver crash
test flaky

ให้ mock response ด้วย Apidog เพื่อให้ unit/integration test ไม่ขึ้นกับ hardware

4. วัด latency และ token throughput

ค่าที่ควรเก็บทุกครั้ง:

time to first token
total latency
tokens per second
prompt tokens
completion tokens
memory usage
context length

ใช้ข้อมูลนี้ตัดสินใจว่า Q4, Q5 หรือโมเดลเล็กกว่าคุ้มกว่าหรือไม่

5. ทำเอกสาร API ภายในทีม

ถ้าทีมใช้ local LLM ร่วมกัน ให้ document endpoint เหมือน API production:

POST /v1/chat/completions

ระบุ:

base URL
model name
request schema
response schema
error cases
streaming behavior
tool calling format

Apidog export เป็น OpenAPI 3.1 ได้ และเหมาะกับ workflow เดียวกับที่อธิบายไว้ใน Apidog เป็นทางเลือก Postman ที่ดีที่สุด

ข้อผิดพลาดที่พบบ่อยเมื่อรัน LLM ในเครื่อง

1. เลือกโมเดลใหญ่ที่สุดเท่าที่ GPU ใส่ได้

โมเดล 32B ที่ Q3 อาจแย่กว่าโมเดล 14B ที่ Q5 ได้ คุณภาพ quantization สำคัญกว่าจำนวนพารามิเตอร์เสมอเมื่ออยู่ในข้อจำกัด VRAM

2. ลืมคิดเรื่อง KV cache

context ยาวขึ้นใช้ VRAM มากขึ้น ตัวอย่างเช่น context 32K บนโมเดล 32B อาจใช้ KV cache หลาย GB ก่อนเริ่ม generate

3. ใช้ fine-tune จากแหล่งที่ไม่น่าเชื่อถือ

ควรใช้ model card ต้นทางหรือ fine-tune จากผู้เผยแพร่ที่ตรวจสอบได้ เพราะ malicious fine-tune เป็นความเสี่ยงจริง

4. ไม่ทำ mock layer

local model อาจล่มได้เสมอ เช่น OOM, GPU throttle, driver crash หรือ process ถูก kill หาก CI เรียกโมเดลตรง ๆ test จะไม่เสถียร ควร mock endpoint ด้วย Apidog

5. คิดว่า tool calling format เหมือนกันทุกโมเดล

Llama, Qwen, DeepSeek และ GLM อาจคืน JSON หรือ tool call format ต่างกันเล็กน้อย ต้องทดสอบก่อนใช้ใน production

ตัวอย่าง use case จริง

Customer support agent

สตาร์ทอัพที่ใช้ customer support agent ย้ายจาก GPT-5.5 ไปยัง Qwen 3.6 32B บน 4090 ตัวเดียว latency ยังต่ำกว่า 800 ms และลดค่า inference รายเดือนจาก 9,400 ดอลลาร์เป็น 0 ดอลลาร์ โดยใช้ Apidog mocks เพื่อทำให้ CI deterministic

Voice assistant

นักพัฒนาอิสระที่สร้าง voice assistant ใช้ Gemma 4 9B บน M2 Pro ที่มี unified memory 16 GB และได้ throughput ประมาณ 60 tokens/s ซึ่งเพียงพอให้ assistant ตอบได้ลื่น

Regulatory document summarization

ทีมวิจัย fintech ใช้ DeepSeek V4 Flash บน 4090 สองตัวสำหรับสรุปเอกสารกำกับดูแลแบบ batch ทุกคืน ต้นทุนหลักคือค่าไฟและเวลาบำรุงรักษาเครื่อง

Checklist ก่อนใช้ local LLM ใน production

ก่อน deploy ให้ตรวจรายการนี้:

[ ] เลือกโมเดลตาม VRAM จริง ไม่ใช่ตาม leaderboard อย่างเดียว
[ ] ทดสอบ quantization หลายระดับ เช่น Q4 และ Q5
[ ] ตั้ง OpenAI-compatible endpoint
[ ] เก็บ canonical requests
[ ] ทำ replay test หลังเปลี่ยนโมเดล
[ ] mock endpoint สำหรับ CI
[ ] วัด latency และ tokens/s
[ ] ตรวจ JSON schema และ tool call format
[ ] document endpoint ให้ทีมใช้งานร่วมกัน
[ ] มี fallback ไปยัง hosted model หาก local endpoint ล่ม

บทสรุป

LLM ในเครื่องที่ดีที่สุดในปี 2026 คือโมเดลที่พอดีกับ VRAM, latency budget และคุณภาพที่ product ต้องการ

แนวทางเลือกแบบเร็ว:

มี GPU 24 GB: เริ่มจาก Qwen 3.6 32B หรือ DeepSeek V4 Flash
มีเครื่องเล็กหรือ Mac 16 GB: เริ่มจาก Llama 5.1 8B หรือ Gemma 4 9B
เน้น tool calling และ structured extraction: ทดสอบ GLM 5.1
เน้น reasoning สูงสุดและมี hardware ใหญ่: พิจารณา DeepSeek V4 Pro

ขั้นตอนถัดไป:

ollama pull qwen3.6:32b
ollama serve

จากนั้นชี้ Apidog ไปที่:

http://localhost:11434/v1

แล้วเริ่มบันทึก request, replay, mock และวัด performance เหมือน API production

คำถามที่พบบ่อย

LLM ในเครื่องที่ดีที่สุดสำหรับ GPU 24 GB ในปี 2026 คืออะไร?

สำหรับ workload ส่วนใหญ่คือ Qwen 3.6 32B ที่ Q4 หรือ DeepSeek V4 Flash ที่ Q4 เลือก Qwen หากต้องการ multilingual และ tool calling เลือก DeepSeek V4 Flash หากเน้น reasoning และ coding ดูรายละเอียดเพิ่มเติมได้ใน คู่มือ DeepSeek V4 ในเครื่อง

รัน LLM ในเครื่องบน Mac ได้หรือไม่?

ได้ Apple silicon ที่มี unified memory 16 GB ขึ้นไปสามารถรัน Llama 5.1 8B และ Gemma 4 9B ได้ ส่วน M3 Ultra ที่มี 192 GB สามารถรัน DeepSeek V4 Pro ที่ Q4 ได้ ใช้ Ollama หรือ LM Studio เป็นตัวเริ่มต้น

จะทดสอบ local LLM เหมือนทดสอบ OpenAI ได้อย่างไร?

ใช้ OpenAI-compatible client แล้วเปลี่ยน base_url เป็น local endpoint เช่น:

http://localhost:11434/v1

สำหรับ Ollama หรือ:

http://localhost:8000/v1

สำหรับ vLLM จากนั้นสร้าง request เดียวกันใน Apidog เพื่อ replay และเปรียบเทียบผลลัพธ์

คุณภาพของ local LLM เทียบ hosted model ได้จริงหรือ?

สำหรับงาน reasoning, coding, classification, retrieval และ tool calling โมเดล open-weight ชั้นนำเข้าใกล้ hosted model มากแล้ว แต่สำหรับ vision, long-context document QA และ creative writing บางประเภท hosted model ยังได้เปรียบ

ค่าใช้จ่ายคุ้มไหม?

หากมีปริมาณใช้งานสูง local inference มักคุ้มกว่า ตัวอย่างเช่น 4090 ที่รัน DeepSeek V4 Flash มีต้นทุนหลักเป็นค่าไฟ ขณะที่ hosted model ในปริมาณเดียวกันอาจมีค่าใช้จ่ายหลายร้อยถึงหลายพันดอลลาร์ต่อเดือน จุดคุ้มทุนมักอยู่ราวหลายล้าน token ต่อเดือน

จะสลับ production ระหว่าง hosted model กับ local model ได้อย่างไร?

ใช้ OpenAI-compatible client เหมือนเดิม แล้วเปลี่ยน:

base_url
model
API key ตาม provider

ก่อนสลับจริง ให้ใช้ replay test เพื่อดู behavioral difference ก่อนที่ผู้ใช้จะเจอปัญหา ดู workflow เพิ่มเติมใน การทดสอบ API โดยไม่ต้องใช้ Postman

ดู leaderboard ล่าสุดได้ที่ไหน?

ดูได้จาก Hugging Face Open LLM Leaderboard และ LMSYS Chatbot Arena เพราะทั้งสองวัดคนละมุมและควรใช้ประกอบกันในการเลือกโมเดลจริง