Thanawat Wongchai

Posted on May 21 • Originally published at apidog.com

Qwen 3.7 คืออะไร? โมเดล AI เรือธงใหม่ล่าสุดจาก Alibaba

ทีม Qwen ของ Alibaba เปิดตัว Qwen3.7-Max-Preview โมเดลเรือธงใหม่ที่ออกแบบมาสำหรับงานเอเจนต์: รันงานนาน, ใช้เครื่องมือหลายครั้ง, รองรับบริบท 1 ล้านโทเค็น และทำคะแนนสูงในกระดานผู้นำด้านความฉลาดบางรายการ หากคุณเป็นนักพัฒนา ประเด็นสำคัญไม่ใช่แค่ “โมเดลเก่งแค่ไหน” แต่คือ “จะนำไปต่อกับ API, ทดสอบเอาต์พุต, และประเมินความคุ้มค่าในระบบจริงอย่างไร”

ลองใช้ Apidog วันนี้

บทความนี้สรุปสิ่งที่รู้เกี่ยวกับ Qwen 3.7 จากประกาศของ Alibaba และรายงานอิสระ โดยแยกให้ชัดเจนระหว่างข้อมูลที่ยืนยันแล้วกับข้อมูลที่ยังเป็นการคาดเดา หากคุณกำลังสร้างแอปที่ต้องเชื่อมต่อโมเดลผ่าน API เครื่องมืออย่าง Apidog จะช่วยออกแบบ request, mock response, และทดสอบ integration ได้ระหว่างพัฒนา

สรุป TL;DR

Qwen3.7-Max-Preview คือโมเดลเรือธงใหม่ของ Alibaba ในตระกูล Qwen 3.7
เป็น โมเดลการให้เหตุผล พร้อมโหมดคิดแบบขยาย
รองรับ context window 1 ล้านโทเค็น
ได้คะแนน 57 ใน Artificial Analysis Intelligence Index และถูกรายงานว่าเป็นอันดับ 1 บน leaderboard นั้น
ได้ประมาณ 1,475 Elo บน LM Arena text leaderboard ณ กลางเดือนพฤษภาคม 2026
ยังเป็นรุ่น Preview, closed-weight และ API กำลังทยอยเปิดให้ใช้งานผ่าน Alibaba Cloud
ณ เวลาที่รายงาน ยังไม่มี Qwen 3.7 open-weight ให้ดาวน์โหลด

Qwen 3.7 คืออะไร?

Qwen 3.7 คือโมเดลภาษาขนาดใหญ่รุ่นล่าสุดจากทีม Qwen ของ Alibaba โดยรุ่นที่ถูกพูดถึงมากที่สุดคือ Qwen3.7-Max-Preview ซึ่ง Alibaba วางตำแหน่งให้เป็นโมเดลเอเจนต์ระดับสูงสำหรับงานที่ซับซ้อนและใช้เวลานาน

คำว่า Max หมายถึงรุ่นระดับเรือธงของตระกูล Qwen ในรุ่นก่อน ๆ Alibaba มักมีรุ่น Max ควบคู่กับรุ่นที่เข้าถึงง่ายกว่า เช่น Plus แต่สำหรับ Qwen 3.7 ตอนนี้ รุ่นที่ยืนยันแล้วคือ Qwen3.7-Max-Preview

โมเดลนี้เป็น reasoning model หมายความว่ามันถูกออกแบบมาให้วิเคราะห์ปัญหาเป็นขั้นตอนก่อนตอบ เหมาะกับงานอย่าง:

วิเคราะห์โค้ดหลายไฟล์
วางแผนหลายขั้นตอน
แก้ปัญหาคณิตศาสตร์หรือตรรกะ
ทำงานแบบเอเจนต์ที่ต้องเรียกเครื่องมือซ้ำ ๆ
ตรวจสอบเอกสารหรือ repository ขนาดใหญ่

ไทม์ไลน์ที่ควรรู้:

ประมาณ 14 พฤษภาคม 2026: โมเดลปรากฏบน LM Arena text leaderboard ในสถานะ preview
19 พฤษภาคม 2026: ปรากฏบนแพลตฟอร์ม API ของ Alibaba
20 พฤษภาคม 2026: Alibaba เปิดเผยอย่างเป็นทางการในงาน Alibaba Cloud Summit 2026

ดังนั้นชื่อรุ่นที่ควรอ้างอิงอย่างถูกต้องในตอนนี้คือ Qwen3.7-Max-Preview ไม่ใช่รุ่น stable

กลุ่มผลิตภัณฑ์ Qwen 3.7: อะไรยืนยันแล้ว และอะไรยังไม่ยืนยัน

ข้อมูลเกี่ยวกับ Qwen 3.7 ยังใหม่มาก จึงควรแยกเป็นสองกลุ่ม

ยืนยันแล้ว

Qwen3.7-Max-Preview
- มีอยู่จริง
- เป็นรุ่นเรือธง
- เป็นโมเดล reasoning
- เข้าถึงผ่านบริการของ Alibaba
- เป็น closed-weight

ยังไม่ยืนยัน

Qwen3.7-Plus
- รุ่นก่อน ๆ ของ Qwen เคยมีรุ่น Plus
- แต่ ณ กลางเดือนพฤษภาคม 2026 ยังไม่มี Qwen3.7-Plus เปิดตัวอย่างเป็นทางการ
Qwen 3.7 open-weight
- ยังไม่มี repository Qwen 3.7 บน QwenLM GitHub
- ยังไม่มี weights ของ Qwen 3.7 บน Hugging Face
- หากมีในอนาคต น่าจะเป็นรุ่นระดับกลางตามรูปแบบเดิมของ Alibaba แต่ยังไม่ควรถือเป็นข้อมูลยืนยัน

ข้อสรุปที่ปลอดภัยคือ เมื่อมีคนพูดถึง “Qwen 3.7” ตอนนี้ ส่วนใหญ่มักหมายถึง Qwen3.7-Max-Preview

Context window 1 ล้านโทเค็น

Qwen3.7-Max-Preview รองรับ context window ขนาด 1 ล้านโทเค็น ตามรายงานของ Artificial Analysis

ในเชิงปฏิบัติ context window คือพื้นที่ที่โมเดลใช้ “มองเห็น” ข้อมูลในคำขอเดียว เช่น:

prompt
ประวัติการสนทนา
ไฟล์เอกสาร
โค้ดหลายไฟล์
output ที่กำลังสร้าง

โดยประมาณ 1 ล้านโทเค็นเทียบได้กับข้อความภาษาอังกฤษราว 700,000–750,000 คำ ซึ่งมากพอสำหรับงานอย่าง:

ใส่ repository ขนาดกลางทั้งชุด
วิเคราะห์เอกสาร PDF หลายไฟล์
สรุปประวัติแชทยาวหลายเดือน
ตรวจสอบ specification และ test case พร้อมกัน

แต่สำหรับการใช้งานจริง ควรระวัง 2 เรื่อง:

context ใหญ่ไม่ได้แปลว่า reasoning แม่นยำเท่ากันทั้งหน้าต่าง

โมเดลอาจดึงข้อมูลจากช่วงต้น กลาง หรือท้าย context ได้ไม่สม่ำเสมอ โดยเฉพาะเมื่อ input ใหญ่มาก
ทุกโทเค็นมีต้นทุน

ถ้าส่ง 1 ล้านโทเค็นทุก request ค่าใช้จ่ายและ latency จะสูงมาก ควรตัดข้อมูลที่ไม่จำเป็นออกก่อนเสมอ

แนวทางใช้งานที่แนะนำ:

ถ้างานต้องการข้อมูลทั้งชุดจริง ๆ:
  ใช้ context ยาว

ถ้างานต้องการแค่ส่วนที่เกี่ยวข้อง:
  ใช้ retrieval, filter, หรือ chunk ก่อนส่งเข้าโมเดล

ถ้างานเป็น classification หรือ rewrite สั้น ๆ:
  อย่าส่ง context ยาวโดยไม่จำเป็น

โหมดการให้เหตุผลและการคิดแบบขยาย

Qwen3.7-Max-Preview เป็น reasoning model ดังนั้นรูปแบบการใช้งานจะแตกต่างจากโมเดลตอบสั้นทั่วไป

เมื่อเจอโจทย์ยาก โมเดลจะใช้โทเค็นจำนวนมากเพื่อวิเคราะห์ วางแผน และตรวจสอบคำตอบก่อนสรุปผล ในอินเทอร์เฟซอย่าง Qwen Chat สิ่งนี้ปรากฏเป็นโหมด Thinking

ข้อมูลจาก Artificial Analysis ระบุว่าในการประเมิน Intelligence Index นั้น Qwen3.7-Max สร้างโทเค็นประมาณ 97 ล้านโทเค็น ซึ่งสูงกว่าค่าเฉลี่ยของโมเดลอื่นในการทดสอบเดียวกันที่ประมาณ 24 ล้านโทเค็น

ความหมายสำหรับนักพัฒนา:

งาน reasoning หนัก → เหมาะกับ Qwen3.7-Max
งานตอบสั้น → อาจสิ้นเปลืองเกินไป
งาน classification → ควรใช้ prompt สั้นและ output format ชัดเจน
งาน coding / debugging / agent → ได้ประโยชน์จาก reasoning มากกว่า

ตัวอย่าง prompt ที่เหมาะกับ reasoning model:

คุณคือ senior backend engineer

งาน:
ตรวจสอบ API design ด้านล่างและระบุปัญหาที่อาจเกิดขึ้นใน production

ให้ตอบเป็น JSON ตาม schema นี้:
{
  "risks": [
    {
      "area": "string",
      "problem": "string",
      "impact": "low|medium|high",
      "recommendation": "string"
    }
  ]
}

API spec:
...

ถ้าต้องทดสอบ output อัตโนมัติ อย่าตรวจ string แบบตรงตัวเกินไป เพราะ reasoning model อาจตอบต่างกันในแต่ละครั้ง ควรตรวจ:

schema ถูกต้องหรือไม่
field สำคัญครบหรือไม่
final answer อยู่ใน format ที่ต้องการหรือไม่
ไม่มีข้อมูลนอกเหนือข้อกำหนดหรือไม่

คู่มือเชื่อมต่อ API แบบละเอียดดูได้ที่ วิธีใช้ Qwen 3.7 API

Benchmark ของ Qwen 3.7: ควรอ่านอย่างไร

Benchmark ของโมเดลใหม่ควรอ่านอย่างระมัดระวัง เพราะตัวเลขมาจากหลายแหล่ง:

บางส่วนมาจากบุคคลที่สาม
บางส่วนมาจากผู้ผลิต
รุ่น preview อาจเปลี่ยนก่อน stable release
benchmark เดียวไม่สามารถแทน performance จริงของทุก use case ได้

Artificial Analysis Intelligence Index

Artificial Analysis Intelligence Index เป็นคะแนนรวมที่รวมการประเมินด้าน reasoning, knowledge, math และ coding

Qwen3.7-Max ได้คะแนน 57 ตามรายงานของ Artificial Analysis และถูกรายงานว่าเป็น:

เพิ่มขึ้น 5 คะแนนจาก Qwen 3.6 Max Preview ที่ได้ 52
อันดับ 1 จาก 218 โมเดลบน leaderboard สาธารณะนั้น

นี่เป็นผลลัพธ์ที่แข็งแกร่ง แต่ควรจำไว้ว่าโมเดลนี้ใช้โทเค็นจำนวนมากในการคิด ซึ่งอาจเพิ่มต้นทุนและ latency เมื่อใช้งานจริง

LM Arena text Elo

LM Arena วัดจากความชอบของมนุษย์ โดยผู้ใช้เปรียบเทียบคำตอบของโมเดลสองตัวแบบไม่รู้ชื่อ แล้วโหวตว่าคำตอบไหนดีกว่า

Qwen3.7-Max-Preview ได้ประมาณ 1,475 Elo บน LM Arena text leaderboard และอยู่ประมาณอันดับ 13 โดยรวม ตามรายงาน ณ เวลานั้น

สรุปความแตกต่าง:

Metric	วัดอะไร	ความหมาย
Artificial Analysis Intelligence Index	ความถูกต้องตาม task	เหมาะสำหรับดู reasoning/math/coding
LM Arena Elo	ความชอบของมนุษย์	เหมาะสำหรับดูคุณภาพคำตอบโดยรวม

การกล่าวอ้างด้าน agent

Alibaba ระบุว่า Qwen3.7-Max สามารถ:

รันงานอัตโนมัติต่อเนื่องได้นานถึง 35 ชั่วโมง
จัดการ tool calls มากกว่า 1,000 ครั้งในการรันเดียว
รักษาประสิทธิภาพในงานระยะยาว

ควรมองตัวเลขเหล่านี้เป็น vendor claim จนกว่าจะมีการทดสอบซ้ำโดยบุคคลที่สาม แต่ก็สะท้อนทิศทางชัดเจนว่าโมเดลนี้ถูกออกแบบมาเพื่อ long-running agent และ tool-heavy workflow

Qwen 3.7 เทียบกับ GPT-5.5, Claude Opus 4.7 และ Gemini 3.5

ตารางนี้สรุปภาพรวมของโมเดลแนวหน้าตามข้อมูลที่รายงาน โดยค่าที่ไม่ยืนยันจะระบุอย่างระมัดระวัง

คุณสมบัติ	Qwen3.7-Max-Preview	GPT-5.5	Claude Opus 4.7	Gemini 3.5
ผู้จำหน่าย	Alibaba / Qwen	OpenAI	Anthropic	Google DeepMind
ประเภท	Reasoning model	Reasoning model	Reasoning model	Reasoning model
Context window	1M โทเค็น	~1M โทเค็น	~1M โทเค็น ตามช่วงที่รายงาน	~1M+ โทเค็น
Weights	Proprietary	Proprietary	Proprietary	Proprietary
AA Intelligence Index	57 รายงานว่าอันดับ 1	ไม่ระบุที่นี่	ไม่ระบุที่นี่	ไม่ระบุที่นี่
สถานะ	Preview	Stable	Stable	Stable
โหมดคิด / reasoning	ใช่	ใช่	ใช่	ใช่
จุดแข็งหลัก	งานเอเจนต์ระยะยาว	Agent automation, tool use	โค้ด production-quality	บริบทยาว, ประสิทธิภาพด้านราคา

ข้อสังเกตสำหรับทีมพัฒนา:

ถ้าสนใจคะแนนรวมด้าน reasoning Qwen3.7-Max ทำผลงานเด่นใน Artificial Analysis
ถ้าต้องการ production stability รุ่นที่ stable แล้วอาจเหมาะกว่า preview model
ถ้างานหลักคือ coding คุณภาพ production ควรทดสอบเทียบกับ Claude Opus 4.7
ถ้างานหลักคือ agent และ tool use ควรทดสอบเทียบกับ GPT-5.5
ถ้างานหลักคือ context ยาวและต้นทุน ควรเทียบกับ Gemini 3.5
ปัจจัยตัดสินจริงควรเป็น latency, ราคา, region availability, API reliability และคุณภาพกับ dataset ของคุณเอง

อ่านต่อ:

วิธีเข้าถึง Qwen 3.7 วันนี้

ณ กลางเดือนพฤษภาคม 2026 มี 2 วิธีหลัก และอีก 1 ทางเลือกที่ต้องรอ

1. ทดลองผ่าน Qwen Chat

วิธีเร็วที่สุดคือใช้เว็บแชทอย่างเป็นทางการ:

chat.qwen.ai

เหมาะสำหรับ:

ทดลอง prompt
ดูพฤติกรรม reasoning
เปิด Thinking mode
ประเมินคุณภาพเบื้องต้นก่อนเขียน integration

ขั้นตอนแนะนำ:

ทดลอง use case จริง 5–10 ตัวอย่าง
จด prompt ที่ให้ผลลัพธ์ดี
ตรวจว่า output format ควบคุมได้หรือไม่
ประเมินว่า reasoning ยาวเกินความจำเป็นหรือไม่
ค่อยย้ายไปทดสอบผ่าน API

2. ใช้ Alibaba Cloud API

Qwen3.7-Max ปรากฏบนแพลตฟอร์ม API ของ Alibaba เมื่อวันที่ 19 พฤษภาคม 2026 และ Alibaba ระบุว่าการเข้าถึง API กำลังทยอยเปิดให้ใช้งาน

เพราะเป็นรุ่น preview ควรตรวจเอกสารล่าสุดของ Alibaba Cloud สำหรับ:

endpoint
model name
pricing
rate limit
region availability
request/response schema
วิธีเปิด reasoning หรือ thinking mode

โครงสร้าง request ที่ควรเตรียมในระบบของคุณ:

{
  "model": "MODEL_NAME_FROM_PROVIDER",
  "messages": [
    {
      "role": "system",
      "content": "คุณคือผู้ช่วยด้าน backend engineering"
    },
    {
      "role": "user",
      "content": "ตรวจสอบ API spec นี้และสรุปความเสี่ยง"
    }
  ],
  "temperature": 0.2
}

สิ่งที่ควรทดสอบก่อนใช้จริง:

response timeout
error handling
retry policy
rate limit
token usage
JSON validity
output schema
latency เมื่อ context ใหญ่
cost ต่อ request ใน workload จริง

คู่มือ API ดูได้ที่ วิธีใช้ Qwen 3.7 API

3. Open weights

หากต้องการ self-host คำตอบตอนนี้คือ: ยังไม่มี

ณ กลางเดือนพฤษภาคม 2026:

ยังไม่มี Qwen 3.7 open-weight
ยังไม่มี weights บน Hugging Face
ยังไม่มี repository Qwen 3.7 บน QwenLM GitHub

หาก Alibaba ทำตามรูปแบบเดิม อาจมีรุ่นระดับกลางแบบ open-weight ในอนาคต แต่ยังไม่มีข้อมูลยืนยัน

ตัวเลือกฟรีหรือประหยัดจะถูกติดตามในคู่มือ ใช้ Qwen 3.7 ฟรี

แนวทางนำ Qwen 3.7 ไปใช้ในแอปจริง

สำหรับทีม Dev.to ที่ต้องการทดลองเชิง implementation ให้เริ่มจาก workflow นี้

ขั้นที่ 1: กำหนด use case ให้แคบ

อย่าเริ่มด้วย “ลองใช้ AI ในแอป” ให้กำหนด task ชัดเจน เช่น:

สรุป pull request ขนาดใหญ่
วิเคราะห์ API spec
ตรวจ log incident
แนะนำ test case จาก requirement
สร้าง migration plan จาก repository

ขั้นที่ 2: กำหนด input และ output schema

ตัวอย่าง output schema:

{
  "summary": "string",
  "risks": [
    {
      "title": "string",
      "severity": "low|medium|high",
      "evidence": "string",
      "suggested_fix": "string"
    }
  ],
  "next_actions": ["string"]
}

ขั้นที่ 3: สร้าง test cases

ควรมีอย่างน้อย:

case ปกติ
case input ยาวมาก
case ข้อมูลไม่ครบ
case ต้องตอบ JSON เท่านั้น
case ที่โมเดลอาจ hallucinate
case ที่ต้องอ้างอิงข้อมูลจากหลายตำแหน่งใน context

ขั้นที่ 4: วัดผลก่อน production

Metric ที่ควรเก็บ:

Metric	เหตุผล
Latency	reasoning model อาจช้ากว่า
Input tokens	context ยาวทำให้ต้นทุนสูง
Output tokens	reasoning และคำตอบยาวมีผลต่อค่าใช้จ่าย
JSON parse success rate	สำคัญสำหรับ automation
Human acceptance rate	วัดว่าคำตอบใช้ได้จริงหรือไม่
Error rate	ตรวจ API stability
Retry count	ส่งผลต่อต้นทุนและ UX

ขั้นที่ 5: ใช้ API tooling ระหว่างพัฒนา

เมื่อโมเดลอยู่หลัง API คุณต้องจัดการสิ่งเหล่านี้:

request collection
environment variables
auth headers
mock response
automated test
response validation
API documentation

คุณสามารถใช้ ดาวน์โหลด Apidog เพื่อจัดคอลเลกชัน request, mock response ของโมเดล, และทดสอบ endpoint ก่อนปล่อยจริง

สรุป

Qwen 3.7 เป็นโมเดลที่น่าจับตา โดยเฉพาะสำหรับงาน reasoning และ agent ระยะยาว

ประเด็นสำคัญ:

Qwen3.7-Max-Preview คือรุ่นเรือธงใหม่ของ Alibaba
รองรับ context window 1M tokens
เป็น reasoning model ที่เหมาะกับงานซับซ้อน
ได้คะแนน 57 ใน Artificial Analysis Intelligence Index
ได้ประมาณ 1,475 Elo บน LM Arena text leaderboard
ยังเป็น preview และ closed-weight
ยังไม่มี Qwen 3.7 open-weight ณ เวลาที่รายงาน
ควรทดสอบกับ workload จริงก่อนตัดสินจาก benchmark

ถ้า Qwen 3.7 อยู่ใน shortlist ของคุณ ขั้นต่อไปคือสร้าง integration จริง วัด latency, token usage, output quality และ error handling กับระบบของคุณเอง Apidog ช่วยให้คุณออกแบบ request, mock response, รัน automated test และตรวจ API call ได้ใน workflow เดียว

DEV Community