Thanawat Wongchai

Posted on Jun 3 • Originally published at apidog.com

Qwen 3.7 Plus: โมเดล AI เอเจนต์มัลติโมดัลจาก Alibaba พร้อมผลการทดสอบและราคา

Alibaba เปิดตัว Qwen 3.7 Plus หลังจาก Qwen 3.7-Max เพียงไม่กี่วัน สรุปแบบนักพัฒนา: Plus คือ Max ที่เพิ่มความสามารถด้านภาพและวิดีโอเข้ามา โดยยังคง context 1 ล้านโทเค็นและโครงสร้างแบบ agentic เดิม แต่รองรับอินพุตหลายโมดอล และมีราคาประมาณหนึ่งในหกของ Max หากคุณติดตามตระกูล Qwen อยู่แล้ว คู่มือของเราเกี่ยวกับ Qwen 3.7 ครอบคลุมรุ่นเรือธงด้านข้อความ ส่วนบทความนี้จะโฟกัสว่า Qwen 3.7 Plus เพิ่มอะไร และควรนำไปใช้อย่างไร

ลองใช้ Apidog วันนี้

ข้อสำคัญก่อนเริ่ม: Qwen 3.7 Plus ใช้งานได้ผ่าน API เท่านั้น และเป็นโมเดลแบบ proprietary ไม่มี open weights ดังนั้นคุณไม่สามารถดาวน์โหลดน้ำหนักไปโฮสต์เองหรือรันออฟไลน์ได้ ซึ่งต่างจากแนวทาง open-source ที่หลายคนคุ้นเคยกับ Qwen รุ่นก่อนหน้า เพราะ Plus เป็น API-only การทดสอบ request, debug payload และตรวจ response จึงเป็นส่วนหลักของ workflow และนี่คือจุดที่ Apidog ช่วยได้ โดยเฉพาะเมื่อคุณต้องส่งรูปภาพ วิดีโอ และ tool-call หลายขั้นตอน

คำตอบสั้นๆ

Qwen 3.7 Plus คือรุ่น multimodal ราคาประหยัดของ Qwen3.7-Max ใช้เมื่อต้องการให้โมเดลอ่านภาพหน้าจอ, mockup, PDF, แผนภูมิ หรือวิดีโอ แล้วนำข้อมูลเหล่านั้นไปใช้ตัดสินใจหรือสร้าง action ต่อ เช่น ระบุพิกัดปุ่มที่ควรกดใน UI

สำหรับงานข้อความล้วน Max ยังได้เปรียบเล็กน้อย แต่ถ้างานมีสัญญาณภาพ เช่น screenshot-to-code, GUI automation, document understanding หรือ video understanding ให้เริ่มจาก Plus ก่อน เพราะได้ multimodal + context 1M ในราคาต่ำกว่า ข้อแลกเปลี่ยนหลักคือ closed weights และต้องเรียกผ่าน API เท่านั้น

มีอะไรใหม่เมื่อเทียบกับ Qwen 3.7 Max

มี 3 จุดที่กระทบการใช้งานจริงโดยตรง

1. รับข้อความ รูปภาพ และวิดีโอ

Max เป็น text-only แต่ Plus รับอินพุตได้หลายแบบ:

ข้อความ
รูปภาพ
วิดีโอ

ตัวอย่างงานที่เหมาะกับ Plus:

อ่านภาพหน้าจอแล้วอธิบายปัญหา UI
แปลง mockup เป็นโค้ด frontend
วิเคราะห์ PDF หรือเอกสารที่มีตาราง/แผนภูมิ
สรุปหรือทำความเข้าใจวิดีโอ
ตรวจว่าปุ่ม/ฟอร์ม/เมนูอยู่ตรงไหนในหน้าจอ

2. ใช้กับ GUI automation ได้

Plus ถูกออกแบบมาสำหรับ agent ที่ต้องโต้ตอบกับ GUI จริง เช่น browser automation หรือ desktop workflow โดยโมเดลสามารถอ่าน screenshot และส่ง action ที่มีโครงสร้างกลับมา เช่น:

{
  "action": "click",
  "target": "Submit button",
  "x": 487,
  "y": 232
}

นี่ทำให้เหมาะกับ agent ที่ต้อง “ดูหน้าจอแล้วลงมือทำ” เช่น:

คลิกผ่านเว็บแอป
ตรวจฟอร์มก่อน submit
ใช้ GUI ร่วมกับ CLI
สร้าง test automation จากภาพหน้าจอ

3. ราคาถูกกว่า Max มาก

ราคาของ Plus อยู่ในระดับที่ใช้งานจริงกับ workload ขนาดใหญ่ได้ง่ายกว่า โดยเฉพาะถ้าคุณต้องรัน agent หลายรอบหรือส่งภาพจำนวนมาก

รายการ	Qwen 3.7 Plus	Qwen 3.7 Max
Input modalities	ข้อความ, รูปภาพ, วิดีโอ	ข้อความเท่านั้น
Context window	1M โทเค็น ใช้ร่วมกับภาพ	1M โทเค็น
Input / output ต่อ 1M	$0.40 / $1.60	$2.50 / $7.50
Cached input ต่อ 1M	$0.08	$0.25
GUI grounding (ScreenSpot Pro)	79.0	ไม่มี
Terminal-Bench	70.3	69.7
Autonomous run ceiling	35 ชั่วโมง	35 ชั่วโมง

ผลการทดสอบ Benchmarks

ตัวเลขเปิดตัวและ รีวิวการใช้งานจริงในช่วงแรก ชี้ไปในทิศทางเดียวกัน: Plus ใกล้เคียงหรือด้อยกว่า Max เล็กน้อยในงานข้อความล้วน แต่จะได้เปรียบทันทีเมื่องานมีภาพเข้ามาเกี่ยวข้อง

ตัวเลขที่ควรรู้:

ScreenSpot Pro: 79.0

ใช้วัด GUI grounding หรือความสามารถในการดู screenshot แล้วระบุพิกัดได้แม่นยำ Max ไม่มีคะแนนในหมวดนี้เพราะเป็น text-only
Terminal-Bench: 70.3

สูงกว่า Max เล็กน้อยที่ 69.7 แม้ Plus จะเพิ่มความสามารถด้านภาพเข้ามา
SWE-Bench Pro: ประมาณ 60%

ใกล้เคียง Max ที่ 60.6% เหมาะกับงาน coding agent ระดับจริงจัง
MCP-Atlas: 76.4

เทียบเท่า Max ในงานใช้เครื่องมือและจัดการ tool workflow
LM Arena

Plus ตามหลัง Max เล็กน้อยในงานข้อความและโค้ดล้วน ดังนั้นถ้างานไม่มีภาพเลย Max ยังอาจเป็นตัวเลือกที่ดีกว่า

แนวทางเลือกใช้งานแบบง่าย:

มีภาพ / screenshot / PDF / video -> ใช้ Qwen 3.7 Plus
ข้อความล้วนและต้องการคะแนนสูงสุด -> พิจารณา Qwen 3.7 Max
ต้องการ open weights หรือ self-host -> Plus ยังไม่เหมาะ

หากต้องการดูบริบทของตระกูล Qwen เทียบกับโมเดลฝั่งตะวันตก การเปรียบเทียบ Qwen 3.7 vs GPT-5.5 vs Opus 4.7 ของเราครอบคลุมภาพรวมไว้แล้ว อย่างไรก็ตาม benchmark เหล่านี้มาจากผู้ขายและผู้รีวิวช่วงแรก ควรใช้เป็นสัญญาณประกอบการทดสอบจริง ไม่ใช่ข้อสรุปสุดท้าย

ราคา: Multimodal ระดับประหยัด

Qwen 3.7 Plus มีราคา:

Input: $0.40 / 1M tokens
Output: $1.60 / 1M tokens
Cached input: $0.08 / 1M tokens

เมื่อเทียบกับ Max จะถูกกว่าประมาณ 6 เท่าสำหรับ input และเกือบ 5 เท่าสำหรับ output จุดนี้สำคัญมากถ้าคุณกำลังสร้าง agent ที่ต้องเรียกโมเดลซ้ำหลายรอบ เช่น browser agent, coding agent หรือ document pipeline

แต่ต้องคำนวณต้นทุนของภาพและวิดีโอด้วย เพราะรูปภาพและวิดีโอใช้ร่วมกับ context window 1M โทเค็น ภาพหน้าจอความละเอียดสูงอาจใช้หลายพันโทเค็น และวิดีโอที่มีหลายเฟรมจะเพิ่มต้นทุนเร็วมาก

แนวทางคุมต้นทุน:

ลดขนาดภาพก่อนส่งเข้าโมเดลเมื่อไม่ต้องการรายละเอียดระดับ pixel
crop เฉพาะส่วนหน้าจอที่เกี่ยวข้อง
ใช้ cached input กับ context ที่ซ้ำ
แยก workflow เป็นหลาย request แทนการยัดทุกอย่างเข้า context เดียว
log token usage ทุก request เพื่อดู cost จริง

สำหรับภาพรวมว่าทำไม LLM จากจีนจึงลดราคาต่อเนื่อง อ่านเพิ่มเติมได้ในบทความเรื่อง สงครามราคา LLM ของจีนปี 2026

ข้อเสีย: เป็นกรรมสิทธิ์และใช้งานได้เฉพาะ API เท่านั้น

Qwen รุ่นก่อนหน้าหลายรุ่นสร้างความน่าเชื่อถือจาก open weights และใบอนุญาตแบบเปิด เช่น Apache 2.0 หรือใบอนุญาตการใช้งานแบบเปิด ทำให้ทีมสามารถดาวน์โหลด ปรับแต่ง และรันใน data center ของตัวเองได้

Qwen 3.7 Plus ไม่ใช่แบบนั้น

Plus ให้บริการเป็น API เชิงพาณิชย์ผ่าน Alibaba Cloud Model Studio เท่านั้น หมายความว่า:

ดาวน์โหลด weights ไม่ได้
self-host ไม่ได้
fine-tune ภายในเองไม่ได้ เว้นแต่บริการรองรับ
รันในระบบ air-gapped ไม่ได้
ต้องพึ่งพา cloud endpoint ของ Alibaba

ถ้าทีมของคุณมีข้อกำหนดด้าน compliance, data residency, offline inference หรือ air-gapped environment โมเดลนี้อาจยังไม่เหมาะในตอนนี้ มีการกล่าวถึงความเป็นไปได้ของรุ่น open-weight ในไตรมาสที่ 3 ปี 2026 แต่ยังไม่ได้รับการยืนยัน ดังนั้นอย่าวางแผน production โดยอิงกับสมมติฐานนั้น

หาก open weights เป็น requirement หลัก คุณควรเปรียบเทียบกับโมเดลอื่น เช่น Step 3.7 Flash ที่จัดส่งภายใต้ Apache 2.0 และมีราคาต่ำกว่า

วิธีเข้าถึง Qwen 3.7 Plus

มี 2 ช่องทางหลัก

1. เรียกผ่าน API

ใช้ผ่าน Alibaba Cloud Model Studio โดย endpoint เข้ากันได้กับ OpenAI-compatible API ดังนั้นโครงสร้าง request จะคล้ายกับการเรียก OpenAI Chat Completions

ถ้าคุณยังไม่เคยเรียก Qwen API มาก่อน อ่าน คู่มือการใช้งาน Qwen 3.7 API เพื่อดูขั้นตอน authentication และการเรียกครั้งแรก

2. ลองผ่านเว็บแชต

ทดสอบโมเดลก่อนเขียนโค้ดได้ที่ chat.qwen.ai ถ้าต้องการทดลองตระกูล Qwen แบบไม่มีค่าใช้จ่าย อ่าน คู่มือการใช้ Qwen 3.7 ฟรี

ตัวอย่างเรียก Qwen 3.7 Plus ด้วย Python

ตัวอย่างนี้ส่งข้อความพร้อมรูปภาพ แล้วให้โมเดลระบุปุ่ม submit พร้อมพิกัด pixel:

from openai import OpenAI

client = OpenAI(
    api_key="YOUR_MODEL_STUDIO_KEY",
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

resp = client.chat.completions.create(
    model="qwen3.7-plus",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Which button submits this form? Give pixel coordinates."
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://example.com/screenshot.png"
                    }
                },
            ],
        }
    ],
)

print(resp.choices[0].message.content)

ตรวจเอกสาร Model Studio ทุกครั้งสำหรับ:

model identifier ที่ถูกต้อง
base URL ตาม region
รูปแบบ payload สำหรับรูปภาพและวิดีโอ
ข้อจำกัดด้านขนาดไฟล์และ token usage

ตัวอย่าง prompt สำหรับ GUI agent

ถ้าคุณต้องการให้โมเดลส่ง action กลับมาในรูปแบบที่โค้ดอ่านต่อได้ ให้บังคับ schema ให้ชัดเจน:

You are a GUI automation agent.

Given the screenshot, return the next action as JSON only.

Schema:
{
  "action": "click" | "type" | "wait" | "none",
  "target": "short description",
  "x": number,
  "y": number,
  "text": string | null,
  "reason": "short reason"
}

Task:
Find the submit button and click it.

จากนั้นให้ระบบของคุณ parse JSON และส่งต่อให้ automation layer เช่น Playwright, Selenium หรือ RPA tool

ตัวอย่าง pseudo-flow:

1. capture screenshot
2. send screenshot + task to Qwen 3.7 Plus
3. parse JSON action
4. execute action in browser/desktop
5. capture next screenshot
6. repeat until task complete

ใครควรใช้ Qwen 3.7 Plus

เลือก Qwen 3.7 Plus ถ้างานของคุณอยู่ในกลุ่มนี้:

Computer-use agent และ GUI automation

ใช้ภาพหน้าจอจริงเพื่อคลิก กรอกฟอร์ม หรือ navigate UI
Screenshot-to-code หรือ mockup-to-UI

ให้โมเดลอ่าน design แล้วช่วยเขียน frontend
Document, PDF และ chart understanding

ใช้กับเอกสารที่มีข้อมูลภาพ ไม่ใช่แค่ข้อความ
Video understanding

วิเคราะห์วิดีโอหรือ sequence ของภาพ
Long-running agent

รองรับการรัน agent ต่อเนื่องสูงสุด 35 ชั่วโมง พร้อม tool call จำนวนมาก
ทีมที่ต้องการลดต้นทุน multimodal inference

ราคา Plus ทำให้ทดลองและ scale ได้ง่ายกว่า Max

ใช้ Max แทนเมื่อ:

งานเป็นข้อความล้วน
ต้องการคะแนนสูงสุดในงาน text/coding benchmark
ต้องการ latency ต่ำสุดสำหรับ text-only cold paths
ไม่ต้องใช้ภาพหรือวิดีโอเลย

ถ้าคุณกำลังเทียบ Plus กับโมเดลเปิดหรือโมเดลราคาประหยัดอื่น อ่าน การเปรียบเทียบ MiniMax M3 vs DeepSeek V4 vs Qwen 3.7

การทดสอบ Qwen 3.7 Plus ด้วย Apidog

เพราะ Qwen 3.7 Plus เป็น API-only คุณจะต้อง debug ที่ระดับ request/response บ่อยกว่าการใช้โมเดลแบบ local โดยเฉพาะ request แบบ multimodal ที่มี:

ข้อความ
image URL หรือ encoded image
วิดีโอ
system prompt
tool schema
response ที่เป็น structured action
loop การเรียก tool หลายรอบ

Apidog ช่วยให้คุณจัดการขั้นตอนเหล่านี้ได้ง่ายขึ้น:

สร้าง request สำหรับ Qwen 3.7 Plus API
จัดการ Model Studio API key ผ่าน environment
ตรวจ raw response
เปรียบเทียบ payload หลายเวอร์ชัน
mock endpoint เพื่อให้ frontend/backend พัฒนาต่อได้ระหว่างรอ prompt เสถียร
debug agent workflow ที่มีหลาย tool call

สำหรับ workflow ที่ Plus ใช้เรียกเครื่องมือหลายขั้นตอน เช่น GUI + CLI agent คุณสามารถใช้ ดีบักเกอร์เอเจนต์ AI ของ Apidog เพื่อดู sequence ของการเรียกทั้งหมด และหาว่าขั้นตอนไหนทำให้ agent หลุดจากเป้าหมาย

เริ่มจาก ดาวน์โหลด Apidog แล้วสร้าง request สำหรับ Qwen 3.7 Plus API เพื่อทดสอบ prompt, payload และ response ก่อนนำไปใช้จริง

Checklist ก่อนนำไปใช้ production

ก่อนนำ Qwen 3.7 Plus ไปใช้งานจริง ควรตรวจรายการเหล่านี้:

[ ] ตรวจว่า use case ต้องใช้ภาพ/วิดีโอจริงหรือไม่
[ ] วัด token usage ของภาพและวิดีโอ
[ ] ตั้ง budget limit ต่อ request หรือ session
[ ] กำหนด response schema ให้ชัดเจน
[ ] validate JSON/action ก่อน execute
[ ] log request/response สำหรับ debug
[ ] ป้องกัน agent คลิกหรือ submit action ที่มีความเสี่ยง
[ ] ทดสอบ failure case เช่น ภาพไม่ชัด ปุ่มซ่อนอยู่ หรือ UI เปลี่ยน
[ ] ตรวจข้อกำหนดด้านข้อมูล เพราะโมเดลต้องเรียกผ่าน cloud API
[ ] mock API สำหรับ integration test

คำถามที่พบบ่อย FAQ

Qwen 3.7 Plus เป็นโอเพนซอร์สหรือไม่?

ไม่ใช่ Qwen 3.7 Plus เป็น proprietary model และใช้งานได้ผ่าน API ที่จัดการโดย Alibaba Cloud Model Studio เท่านั้น คุณไม่สามารถดาวน์โหลดหรือโฮสต์ weights เองได้ มีการกล่าวถึงความเป็นไปได้ของรุ่น open-weight ในไตรมาสที่ 3 ปี 2026 แต่ยังไม่ได้รับการยืนยัน

ควรใช้ Qwen 3.7 Plus หรือ Qwen 3.7 Max?

ใช้ Plus หากคุณต้องการความสามารถด้านภาพ เช่น screenshot, PDF, video หรือ GUI grounding และต้องการต้นทุนต่ำกว่า ใช้ Max หากงานเป็นข้อความล้วนและคุณต้องการประสิทธิภาพสูงสุดใน text/coding benchmark หรือ latency ต่ำสุดสำหรับ text-only

Qwen 3.7 Plus ราคาเท่าไหร่?

ราคาอยู่ที่ $0.40 ต่อ 1M input tokens, $1.60 ต่อ 1M output tokens และ $0.08 ต่อ 1M cached input tokens ซึ่งถูกกว่า Qwen 3.7-Max ประมาณหกเท่าสำหรับ input

Qwen 3.7 Plus จัดการวิดีโอได้หรือไม่?

ได้ Qwen 3.7 Plus รับข้อความ รูปภาพ และวิดีโอเป็นอินพุต แต่โทเค็นจากภาพและวิดีโอจะใช้ร่วมกับ context window 1 ล้านโทเค็น ดังนั้น media payload ขนาดใหญ่จะลดพื้นที่สำหรับข้อความ

Context window ของ Qwen 3.7 Plus คือเท่าไหร่?

1 ล้านโทเค็น โดยใช้ร่วมกันระหว่างข้อความ รูปภาพ และวิดีโอ

ฉันจะเข้าถึง Qwen 3.7 Plus ได้อย่างไร?

ใช้ผ่าน Alibaba Cloud Model Studio API หรือลองในเบราว์เซอร์ที่ chat.qwen.ai

สรุป

Qwen 3.7 Plus คือ Qwen 3.7-Max ที่เพิ่มความสามารถด้านภาพและวิดีโอ พร้อมลดราคาลงมาอยู่ในระดับที่เหมาะกับการสร้าง multimodal agent จริง สำหรับนักพัฒนาที่ทำ computer-use agent, screenshot-to-code, document understanding หรือ video workflow นี่เป็นตัวเลือกที่คุ้มค่ามากเมื่อเทียบกับ Max

ข้อแลกเปลี่ยนคือ closed weights และการพึ่งพา Alibaba Cloud API เต็มรูปแบบ หากข้อจำกัดนี้รับได้ ขั้นตอนถัดไปคือเริ่มทดสอบ API จริง วัด token usage, debug payload แบบ multimodal และ mock response ใน Apidog ก่อนนำ workflow เข้าสู่ production จริง

DEV Community