Alibaba เปิดตัว Qwen 3.7 Plus หลังจาก Qwen 3.7-Max เพียงไม่กี่วัน สรุปแบบนักพัฒนา: Plus คือ Max ที่เพิ่มความสามารถด้านภาพและวิดีโอเข้ามา โดยยังคง context 1 ล้านโทเค็นและโครงสร้างแบบ agentic เดิม แต่รองรับอินพุตหลายโมดอล และมีราคาประมาณหนึ่งในหกของ Max หากคุณติดตามตระกูล Qwen อยู่แล้ว คู่มือของเราเกี่ยวกับ Qwen 3.7 ครอบคลุมรุ่นเรือธงด้านข้อความ ส่วนบทความนี้จะโฟกัสว่า Qwen 3.7 Plus เพิ่มอะไร และควรนำไปใช้อย่างไร
ข้อสำคัญก่อนเริ่ม: Qwen 3.7 Plus ใช้งานได้ผ่าน API เท่านั้น และเป็นโมเดลแบบ proprietary ไม่มี open weights ดังนั้นคุณไม่สามารถดาวน์โหลดน้ำหนักไปโฮสต์เองหรือรันออฟไลน์ได้ ซึ่งต่างจากแนวทาง open-source ที่หลายคนคุ้นเคยกับ Qwen รุ่นก่อนหน้า เพราะ Plus เป็น API-only การทดสอบ request, debug payload และตรวจ response จึงเป็นส่วนหลักของ workflow และนี่คือจุดที่ Apidog ช่วยได้ โดยเฉพาะเมื่อคุณต้องส่งรูปภาพ วิดีโอ และ tool-call หลายขั้นตอน
คำตอบสั้นๆ
Qwen 3.7 Plus คือรุ่น multimodal ราคาประหยัดของ Qwen3.7-Max ใช้เมื่อต้องการให้โมเดลอ่านภาพหน้าจอ, mockup, PDF, แผนภูมิ หรือวิดีโอ แล้วนำข้อมูลเหล่านั้นไปใช้ตัดสินใจหรือสร้าง action ต่อ เช่น ระบุพิกัดปุ่มที่ควรกดใน UI
สำหรับงานข้อความล้วน Max ยังได้เปรียบเล็กน้อย แต่ถ้างานมีสัญญาณภาพ เช่น screenshot-to-code, GUI automation, document understanding หรือ video understanding ให้เริ่มจาก Plus ก่อน เพราะได้ multimodal + context 1M ในราคาต่ำกว่า ข้อแลกเปลี่ยนหลักคือ closed weights และต้องเรียกผ่าน API เท่านั้น
มีอะไรใหม่เมื่อเทียบกับ Qwen 3.7 Max
มี 3 จุดที่กระทบการใช้งานจริงโดยตรง
1. รับข้อความ รูปภาพ และวิดีโอ
Max เป็น text-only แต่ Plus รับอินพุตได้หลายแบบ:
- ข้อความ
- รูปภาพ
- วิดีโอ
ตัวอย่างงานที่เหมาะกับ Plus:
- อ่านภาพหน้าจอแล้วอธิบายปัญหา UI
- แปลง mockup เป็นโค้ด frontend
- วิเคราะห์ PDF หรือเอกสารที่มีตาราง/แผนภูมิ
- สรุปหรือทำความเข้าใจวิดีโอ
- ตรวจว่าปุ่ม/ฟอร์ม/เมนูอยู่ตรงไหนในหน้าจอ
2. ใช้กับ GUI automation ได้
Plus ถูกออกแบบมาสำหรับ agent ที่ต้องโต้ตอบกับ GUI จริง เช่น browser automation หรือ desktop workflow โดยโมเดลสามารถอ่าน screenshot และส่ง action ที่มีโครงสร้างกลับมา เช่น:
{
"action": "click",
"target": "Submit button",
"x": 487,
"y": 232
}
นี่ทำให้เหมาะกับ agent ที่ต้อง “ดูหน้าจอแล้วลงมือทำ” เช่น:
- คลิกผ่านเว็บแอป
- ตรวจฟอร์มก่อน submit
- ใช้ GUI ร่วมกับ CLI
- สร้าง test automation จากภาพหน้าจอ
3. ราคาถูกกว่า Max มาก
ราคาของ Plus อยู่ในระดับที่ใช้งานจริงกับ workload ขนาดใหญ่ได้ง่ายกว่า โดยเฉพาะถ้าคุณต้องรัน agent หลายรอบหรือส่งภาพจำนวนมาก
| รายการ | Qwen 3.7 Plus | Qwen 3.7 Max |
|---|---|---|
| Input modalities | ข้อความ, รูปภาพ, วิดีโอ | ข้อความเท่านั้น |
| Context window | 1M โทเค็น ใช้ร่วมกับภาพ | 1M โทเค็น |
| Input / output ต่อ 1M | $0.40 / $1.60 | $2.50 / $7.50 |
| Cached input ต่อ 1M | $0.08 | $0.25 |
| GUI grounding (ScreenSpot Pro) | 79.0 | ไม่มี |
| Terminal-Bench | 70.3 | 69.7 |
| Autonomous run ceiling | 35 ชั่วโมง | 35 ชั่วโมง |
ผลการทดสอบ Benchmarks
ตัวเลขเปิดตัวและ รีวิวการใช้งานจริงในช่วงแรก ชี้ไปในทิศทางเดียวกัน: Plus ใกล้เคียงหรือด้อยกว่า Max เล็กน้อยในงานข้อความล้วน แต่จะได้เปรียบทันทีเมื่องานมีภาพเข้ามาเกี่ยวข้อง
ตัวเลขที่ควรรู้:
ScreenSpot Pro: 79.0
ใช้วัด GUI grounding หรือความสามารถในการดู screenshot แล้วระบุพิกัดได้แม่นยำ Max ไม่มีคะแนนในหมวดนี้เพราะเป็น text-onlyTerminal-Bench: 70.3
สูงกว่า Max เล็กน้อยที่ 69.7 แม้ Plus จะเพิ่มความสามารถด้านภาพเข้ามาSWE-Bench Pro: ประมาณ 60%
ใกล้เคียง Max ที่ 60.6% เหมาะกับงาน coding agent ระดับจริงจังMCP-Atlas: 76.4
เทียบเท่า Max ในงานใช้เครื่องมือและจัดการ tool workflowLM Arena
Plus ตามหลัง Max เล็กน้อยในงานข้อความและโค้ดล้วน ดังนั้นถ้างานไม่มีภาพเลย Max ยังอาจเป็นตัวเลือกที่ดีกว่า
แนวทางเลือกใช้งานแบบง่าย:
มีภาพ / screenshot / PDF / video -> ใช้ Qwen 3.7 Plus
ข้อความล้วนและต้องการคะแนนสูงสุด -> พิจารณา Qwen 3.7 Max
ต้องการ open weights หรือ self-host -> Plus ยังไม่เหมาะ
หากต้องการดูบริบทของตระกูล Qwen เทียบกับโมเดลฝั่งตะวันตก การเปรียบเทียบ Qwen 3.7 vs GPT-5.5 vs Opus 4.7 ของเราครอบคลุมภาพรวมไว้แล้ว อย่างไรก็ตาม benchmark เหล่านี้มาจากผู้ขายและผู้รีวิวช่วงแรก ควรใช้เป็นสัญญาณประกอบการทดสอบจริง ไม่ใช่ข้อสรุปสุดท้าย
ราคา: Multimodal ระดับประหยัด
Qwen 3.7 Plus มีราคา:
- Input: $0.40 / 1M tokens
- Output: $1.60 / 1M tokens
- Cached input: $0.08 / 1M tokens
เมื่อเทียบกับ Max จะถูกกว่าประมาณ 6 เท่าสำหรับ input และเกือบ 5 เท่าสำหรับ output จุดนี้สำคัญมากถ้าคุณกำลังสร้าง agent ที่ต้องเรียกโมเดลซ้ำหลายรอบ เช่น browser agent, coding agent หรือ document pipeline
แต่ต้องคำนวณต้นทุนของภาพและวิดีโอด้วย เพราะรูปภาพและวิดีโอใช้ร่วมกับ context window 1M โทเค็น ภาพหน้าจอความละเอียดสูงอาจใช้หลายพันโทเค็น และวิดีโอที่มีหลายเฟรมจะเพิ่มต้นทุนเร็วมาก
แนวทางคุมต้นทุน:
- ลดขนาดภาพก่อนส่งเข้าโมเดลเมื่อไม่ต้องการรายละเอียดระดับ pixel
- crop เฉพาะส่วนหน้าจอที่เกี่ยวข้อง
- ใช้ cached input กับ context ที่ซ้ำ
- แยก workflow เป็นหลาย request แทนการยัดทุกอย่างเข้า context เดียว
- log token usage ทุก request เพื่อดู cost จริง
สำหรับภาพรวมว่าทำไม LLM จากจีนจึงลดราคาต่อเนื่อง อ่านเพิ่มเติมได้ในบทความเรื่อง สงครามราคา LLM ของจีนปี 2026
ข้อเสีย: เป็นกรรมสิทธิ์และใช้งานได้เฉพาะ API เท่านั้น
Qwen รุ่นก่อนหน้าหลายรุ่นสร้างความน่าเชื่อถือจาก open weights และใบอนุญาตแบบเปิด เช่น Apache 2.0 หรือใบอนุญาตการใช้งานแบบเปิด ทำให้ทีมสามารถดาวน์โหลด ปรับแต่ง และรันใน data center ของตัวเองได้
Qwen 3.7 Plus ไม่ใช่แบบนั้น
Plus ให้บริการเป็น API เชิงพาณิชย์ผ่าน Alibaba Cloud Model Studio เท่านั้น หมายความว่า:
- ดาวน์โหลด weights ไม่ได้
- self-host ไม่ได้
- fine-tune ภายในเองไม่ได้ เว้นแต่บริการรองรับ
- รันในระบบ air-gapped ไม่ได้
- ต้องพึ่งพา cloud endpoint ของ Alibaba
ถ้าทีมของคุณมีข้อกำหนดด้าน compliance, data residency, offline inference หรือ air-gapped environment โมเดลนี้อาจยังไม่เหมาะในตอนนี้ มีการกล่าวถึงความเป็นไปได้ของรุ่น open-weight ในไตรมาสที่ 3 ปี 2026 แต่ยังไม่ได้รับการยืนยัน ดังนั้นอย่าวางแผน production โดยอิงกับสมมติฐานนั้น
หาก open weights เป็น requirement หลัก คุณควรเปรียบเทียบกับโมเดลอื่น เช่น Step 3.7 Flash ที่จัดส่งภายใต้ Apache 2.0 และมีราคาต่ำกว่า
วิธีเข้าถึง Qwen 3.7 Plus
มี 2 ช่องทางหลัก
1. เรียกผ่าน API
ใช้ผ่าน Alibaba Cloud Model Studio โดย endpoint เข้ากันได้กับ OpenAI-compatible API ดังนั้นโครงสร้าง request จะคล้ายกับการเรียก OpenAI Chat Completions
ถ้าคุณยังไม่เคยเรียก Qwen API มาก่อน อ่าน คู่มือการใช้งาน Qwen 3.7 API เพื่อดูขั้นตอน authentication และการเรียกครั้งแรก
2. ลองผ่านเว็บแชต
ทดสอบโมเดลก่อนเขียนโค้ดได้ที่ chat.qwen.ai ถ้าต้องการทดลองตระกูล Qwen แบบไม่มีค่าใช้จ่าย อ่าน คู่มือการใช้ Qwen 3.7 ฟรี
ตัวอย่างเรียก Qwen 3.7 Plus ด้วย Python
ตัวอย่างนี้ส่งข้อความพร้อมรูปภาพ แล้วให้โมเดลระบุปุ่ม submit พร้อมพิกัด pixel:
from openai import OpenAI
client = OpenAI(
api_key="YOUR_MODEL_STUDIO_KEY",
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
resp = client.chat.completions.create(
model="qwen3.7-plus",
messages=[
{
"role": "user",
"content": [
{
"type": "text",
"text": "Which button submits this form? Give pixel coordinates."
},
{
"type": "image_url",
"image_url": {
"url": "https://example.com/screenshot.png"
}
},
],
}
],
)
print(resp.choices[0].message.content)
ตรวจเอกสาร Model Studio ทุกครั้งสำหรับ:
- model identifier ที่ถูกต้อง
- base URL ตาม region
- รูปแบบ payload สำหรับรูปภาพและวิดีโอ
- ข้อจำกัดด้านขนาดไฟล์และ token usage
ตัวอย่าง prompt สำหรับ GUI agent
ถ้าคุณต้องการให้โมเดลส่ง action กลับมาในรูปแบบที่โค้ดอ่านต่อได้ ให้บังคับ schema ให้ชัดเจน:
You are a GUI automation agent.
Given the screenshot, return the next action as JSON only.
Schema:
{
"action": "click" | "type" | "wait" | "none",
"target": "short description",
"x": number,
"y": number,
"text": string | null,
"reason": "short reason"
}
Task:
Find the submit button and click it.
จากนั้นให้ระบบของคุณ parse JSON และส่งต่อให้ automation layer เช่น Playwright, Selenium หรือ RPA tool
ตัวอย่าง pseudo-flow:
1. capture screenshot
2. send screenshot + task to Qwen 3.7 Plus
3. parse JSON action
4. execute action in browser/desktop
5. capture next screenshot
6. repeat until task complete
ใครควรใช้ Qwen 3.7 Plus
เลือก Qwen 3.7 Plus ถ้างานของคุณอยู่ในกลุ่มนี้:
Computer-use agent และ GUI automation
ใช้ภาพหน้าจอจริงเพื่อคลิก กรอกฟอร์ม หรือ navigate UIScreenshot-to-code หรือ mockup-to-UI
ให้โมเดลอ่าน design แล้วช่วยเขียน frontendDocument, PDF และ chart understanding
ใช้กับเอกสารที่มีข้อมูลภาพ ไม่ใช่แค่ข้อความVideo understanding
วิเคราะห์วิดีโอหรือ sequence ของภาพLong-running agent
รองรับการรัน agent ต่อเนื่องสูงสุด 35 ชั่วโมง พร้อม tool call จำนวนมากทีมที่ต้องการลดต้นทุน multimodal inference
ราคา Plus ทำให้ทดลองและ scale ได้ง่ายกว่า Max
ใช้ Max แทนเมื่อ:
- งานเป็นข้อความล้วน
- ต้องการคะแนนสูงสุดในงาน text/coding benchmark
- ต้องการ latency ต่ำสุดสำหรับ text-only cold paths
- ไม่ต้องใช้ภาพหรือวิดีโอเลย
ถ้าคุณกำลังเทียบ Plus กับโมเดลเปิดหรือโมเดลราคาประหยัดอื่น อ่าน การเปรียบเทียบ MiniMax M3 vs DeepSeek V4 vs Qwen 3.7
การทดสอบ Qwen 3.7 Plus ด้วย Apidog
เพราะ Qwen 3.7 Plus เป็น API-only คุณจะต้อง debug ที่ระดับ request/response บ่อยกว่าการใช้โมเดลแบบ local โดยเฉพาะ request แบบ multimodal ที่มี:
- ข้อความ
- image URL หรือ encoded image
- วิดีโอ
- system prompt
- tool schema
- response ที่เป็น structured action
- loop การเรียก tool หลายรอบ
Apidog ช่วยให้คุณจัดการขั้นตอนเหล่านี้ได้ง่ายขึ้น:
- สร้าง request สำหรับ Qwen 3.7 Plus API
- จัดการ Model Studio API key ผ่าน environment
- ตรวจ raw response
- เปรียบเทียบ payload หลายเวอร์ชัน
- mock endpoint เพื่อให้ frontend/backend พัฒนาต่อได้ระหว่างรอ prompt เสถียร
- debug agent workflow ที่มีหลาย tool call
สำหรับ workflow ที่ Plus ใช้เรียกเครื่องมือหลายขั้นตอน เช่น GUI + CLI agent คุณสามารถใช้ ดีบักเกอร์เอเจนต์ AI ของ Apidog เพื่อดู sequence ของการเรียกทั้งหมด และหาว่าขั้นตอนไหนทำให้ agent หลุดจากเป้าหมาย
เริ่มจาก ดาวน์โหลด Apidog แล้วสร้าง request สำหรับ Qwen 3.7 Plus API เพื่อทดสอบ prompt, payload และ response ก่อนนำไปใช้จริง
Checklist ก่อนนำไปใช้ production
ก่อนนำ Qwen 3.7 Plus ไปใช้งานจริง ควรตรวจรายการเหล่านี้:
- [ ] ตรวจว่า use case ต้องใช้ภาพ/วิดีโอจริงหรือไม่
- [ ] วัด token usage ของภาพและวิดีโอ
- [ ] ตั้ง budget limit ต่อ request หรือ session
- [ ] กำหนด response schema ให้ชัดเจน
- [ ] validate JSON/action ก่อน execute
- [ ] log request/response สำหรับ debug
- [ ] ป้องกัน agent คลิกหรือ submit action ที่มีความเสี่ยง
- [ ] ทดสอบ failure case เช่น ภาพไม่ชัด ปุ่มซ่อนอยู่ หรือ UI เปลี่ยน
- [ ] ตรวจข้อกำหนดด้านข้อมูล เพราะโมเดลต้องเรียกผ่าน cloud API
- [ ] mock API สำหรับ integration test
คำถามที่พบบ่อย FAQ
Qwen 3.7 Plus เป็นโอเพนซอร์สหรือไม่?
ไม่ใช่ Qwen 3.7 Plus เป็น proprietary model และใช้งานได้ผ่าน API ที่จัดการโดย Alibaba Cloud Model Studio เท่านั้น คุณไม่สามารถดาวน์โหลดหรือโฮสต์ weights เองได้ มีการกล่าวถึงความเป็นไปได้ของรุ่น open-weight ในไตรมาสที่ 3 ปี 2026 แต่ยังไม่ได้รับการยืนยัน
ควรใช้ Qwen 3.7 Plus หรือ Qwen 3.7 Max?
ใช้ Plus หากคุณต้องการความสามารถด้านภาพ เช่น screenshot, PDF, video หรือ GUI grounding และต้องการต้นทุนต่ำกว่า ใช้ Max หากงานเป็นข้อความล้วนและคุณต้องการประสิทธิภาพสูงสุดใน text/coding benchmark หรือ latency ต่ำสุดสำหรับ text-only
Qwen 3.7 Plus ราคาเท่าไหร่?
ราคาอยู่ที่ $0.40 ต่อ 1M input tokens, $1.60 ต่อ 1M output tokens และ $0.08 ต่อ 1M cached input tokens ซึ่งถูกกว่า Qwen 3.7-Max ประมาณหกเท่าสำหรับ input
Qwen 3.7 Plus จัดการวิดีโอได้หรือไม่?
ได้ Qwen 3.7 Plus รับข้อความ รูปภาพ และวิดีโอเป็นอินพุต แต่โทเค็นจากภาพและวิดีโอจะใช้ร่วมกับ context window 1 ล้านโทเค็น ดังนั้น media payload ขนาดใหญ่จะลดพื้นที่สำหรับข้อความ
Context window ของ Qwen 3.7 Plus คือเท่าไหร่?
1 ล้านโทเค็น โดยใช้ร่วมกันระหว่างข้อความ รูปภาพ และวิดีโอ
ฉันจะเข้าถึง Qwen 3.7 Plus ได้อย่างไร?
ใช้ผ่าน Alibaba Cloud Model Studio API หรือลองในเบราว์เซอร์ที่ chat.qwen.ai
สรุป
Qwen 3.7 Plus คือ Qwen 3.7-Max ที่เพิ่มความสามารถด้านภาพและวิดีโอ พร้อมลดราคาลงมาอยู่ในระดับที่เหมาะกับการสร้าง multimodal agent จริง สำหรับนักพัฒนาที่ทำ computer-use agent, screenshot-to-code, document understanding หรือ video workflow นี่เป็นตัวเลือกที่คุ้มค่ามากเมื่อเทียบกับ Max
ข้อแลกเปลี่ยนคือ closed weights และการพึ่งพา Alibaba Cloud API เต็มรูปแบบ หากข้อจำกัดนี้รับได้ ขั้นตอนถัดไปคือเริ่มทดสอบ API จริง วัด token usage, debug payload แบบ multimodal และ mock response ใน Apidog ก่อนนำ workflow เข้าสู่ production จริง


Top comments (0)