Yusuf Khalidd

Posted on Apr 2 • Originally published at apidog.com

واجهة برمجة تطبيقات Qwen3.6-Plus تتفوق على Claude في اختبارات الأداء الطرفية

موجز

تم إطلاق Qwen3.6-Plus رسميًا، حيث يحقق نتائج متقدمة في SWE-bench Verified (78.8%) و Terminal-Bench 2.0 (61.6%) متفوقًا على Claude Opus 4.5. يوفر نافذة سياق بمليون رمز، ومعلمة جديدة preserve_thinking لحلقات الوكيل، ويعمل مباشرة مع Claude Code وOpenClaw وQwen Code عبر API متوافقة مع OpenAI.

جرّب Apidog اليوم

من الإصدار التجريبي إلى الإصدار الرسمي

إذا اطلعت على دليلنا السابق حول معاينة Qwen 3.6 Plus على OpenRouter، فأنت تعرف بالفعل إمكانيات النموذج. المعاينة بدأت في 30 مارس بدون قائمة انتظار وبوصول مجاني عبر OpenRouter، حيث تم معالجة أكثر من 400 مليون رمز في يومين.

الإصدار الرسمي الآن إنتاجي بالكامل، متاح عبر Alibaba Cloud Model Studio مع API مستقرة وSLA ومعلمة API جديدة تزيد قدرات الوكيل متعدد الخطوات. في هذا الدليل ستتعرف عمليًا على التغييرات، كيفية استدعاء API بشكل صحيح، وكيفية اختبار التكامل مع Apidog قبل النشر.

ما هو Qwen3.6-Plus

Qwen3.6-Plus هو نموذج Mixture of Experts من فريق Qwen (Alibaba). مثل Qwen3.5 يستخدم تفعيلًا متفرقًا، حيث يُفعِّل جزءًا صغيرًا من المعلمات لكل رمز، فيحقق أداء قويًا بتكلفة حوسبة أقل.

المواصفات الأساسية:

نافذة سياق مليون رمز افتراضيًا
استدلال إجباري لسلسلة الأفكار
معلمة preserve_thinking جديدة للمهام متعددة الخطوات
دعم متعدد الوسائط (رؤية، فيديو، مستندات)
API متوافقة مع OpenAI وAnthropic

ستتوفر إصدارات أصغر مفتوحة المصدر قريبًا. إذا كنت تحتاج للأوزان للاستضافة الذاتية، فهي في الطريق.

نتائج المعايير

وكلاء البرمجة

Qwen3.6-Plus قريب جدًا من Claude Opus 4.5 في SWE-bench، ويتفوق في عمليات الطرفية.

اختبار Terminal-Bench 2.0 يقيس أداء واجهة الأوامر الحقيقية مع سيناريوهات عملية. سجل Qwen3.6-Plus نسبة 61.6% مقابل 59.3% لـ Claude Opus 4.5، مما يبرز فعاليته في المهام البرمجية الواقعية.

الوكلاء العامون واستخدام الأدوات

المعيار	Claude Opus 4.5	Qwen3.6-Plus
TAU3-Bench	70.2%	70.7%
DeepPlanning	33.9%	41.5%
MCPMark	42.3%	48.2%
MCP-Atlas	71.8%	74.1%
WideSearch	76.4%	74.3%

تحسن ملحوظ في MCPMark وDeepPlanning، وهو مهم لمن يعتمد على أدوات GitHub MCP أو مهام التخطيط الطويلة.

الاستدلال والمعرفة

المعيار	Claude Opus 4.5	Qwen3.6-Plus
GPQA	87.0%	90.4%
LiveCodeBench v6	84.8%	87.1%
IFEval strict	90.9%	94.3%
MMLU-Pro	89.5%	88.5%

يتفوق Qwen3.6-Plus في GPQA وIFEval strict في الاستدلال والالتزام بالتعليمات.

متعدد الوسائط

المعيار	Qwen3.6-Plus	ملاحظات
OmniDocBench 1.5	91.2%	الأعلى في الجدول
RefCOCO avg	93.5%	الأعلى في الجدول
We-Math	89.0%	الأعلى في الجدول
CountBench	97.6%	الأعلى في الجدول
OSWorld-Verified	62.5%	خلف Claude (66.3%)

يتصدر Qwen3.6-Plus معظم معايير الفهم متعدد الوسائط باستثناء OSWorld-Verified.

كيفية استدعاء واجهة برمجة التطبيقات (API)

النموذج متوفر عبر Alibaba Cloud Model Studio. احصل على مفتاح API من modelstudio.alibabacloud.com.

عناوين API حسب المنطقة:

سنغافورة: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
بكين: https://dashscope.aliyuncs.com/compatible-mode/v1
فيرجينيا (أمريكا): https://dashscope-us.aliyuncs.com/compatible-mode/v1

استدعاء أساسي مع البث

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.environ["DASHSCOPE_API_KEY"],
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=[{"role": "user", "content": "Review this Python function and find bugs."}],
    extra_body={"enable_thinking": True},
    stream=True
)

reasoning = ""
answer = ""
is_answering = False

for chunk in completion:
    if not chunk.choices:
        continue
    delta = chunk.choices[0].delta
    if hasattr(delta, "reasoning_content") and delta.reasoning_content:
        if not is_answering:
            reasoning += delta.reasoning_content
    if delta.content:
        if not is_answering:
            is_answering = True
        answer += delta.content
        print(delta.content, end="", flush=True)

معلمة preserve_thinking

الإصدار الرسمي يدعم معلمة preserve_thinking. عند تفعيلها، يحتفظ النموذج بسلسلة الاستدلال عبر كامل المحادثة، وهو بالغ الأهمية للوكلاء متعددي الخطوات.

completion = client.chat.completions.create(
    model="qwen3.6-plus",
    messages=conversation_history,
    extra_body={
        "enable_thinking": True,
        "preserve_thinking": True, # الاحتفاظ بالاستدلال عبر جميع الأدوار
    },
    stream=True
)

استخدم Qwen3.6-Plus مع Claude Code

واجهة Qwen متوافقة مع بروتوكول Anthropic. يمكنك تشغيل Claude Code بالمتغيرات التالية:

npm install -g @anthropic-ai/claude-code

export ANTHROPIC_MODEL="qwen3.6-plus"
export ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-plus"
export ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropic
export ANTHROPIC_AUTH_TOKEN=your_dashscope_api_key

claude

استخدم Qwen3.6-Plus مع OpenClaw

OpenClaw وكيل برمجة مفتوح المصدر. للتكامل:

# التثبيت (Node.js 22+)
curl -fsSL https://molt.bot/install.sh | bash

export DASHSCOPE_API_KEY=your_key
openclaw dashboard

ثم عدل ملف ~/.openclaw/openclaw.json وأدخل:

{
  "models": {
    "providers": [{
      "name": "alibaba-coding-plan",
      "baseUrl": "https://coding-intl.dashscope.aliyuncs.com/v1",
      "apiKey": "${DASHSCOPE_API_KEY}",
      "models": [{"id": "qwen3.6-plus", "reasoning": true}]
    }]
  },
  "agents": {
    "defaults": {"models": ["qwen3.6-plus"]}
  }
}

استخدم Qwen3.6-Plus مع Qwen Code

Qwen Code وكيل طرفية من Alibaba يدعم 1,000 استدعاء API مجاني يوميًا:

npm install -g @qwen-code/qwen-code@latest
qwen
# اكتب /auth لتسجيل الدخول وتفعيل الباقة المجانية

لماذا تغير preserve_thinking سلوك الوكيل

معظم LLM APIs تتعامل مع كل دور بشكل مستقل، مما يسبب فقدان الاستدلال السابق عند تنفيذ مهام متعددة الخطوات. مع preserve_thinking: true، يحتفظ النموذج بكامل سلسلة الاستدلال عبر جميع الأدوار، ما يزيد الاتساق ويقلل من الاستنتاج المتكرر.

نمط عمل وكيل متعدد الخطوات:

conversation = []

def agent_step(user_message, preserve=True):
    conversation.append({"role": "user", "content": user_message})

    response = client.chat.completions.create(
        model="qwen3.6-plus",
        messages=conversation,
        extra_body={
            "enable_thinking": True,
            "preserve_thinking": preserve,
        },
        stream=False
    )

    message = response.choices[0].message
    conversation.append({"role": "assistant", "content": message.content})
    return message.content

# مثال: وكيل مراجعة كود متعدد الخطوات
result = agent_step("حلل وحدة المصادقة بحثًا عن مشكلات أمنية.")
result = agent_step("الآن اقترح حلولًا لأهم 3 مشكلات وجدتها.")
result = agent_step("اكتب اختبارات للتحقق من كل إصلاح.")

بدون preserve_thinking، لن يعرف النموذج ما هي المشكلات الثلاث التي تم تحديدها في الخطوة الأولى عند الوصول للخطوة الثالثة.

ما هو الأفضل له

إصلاح أخطاء على مستوى المستودع: نتائج SWE-bench منافسة جدًا.
أتمتة الطرفية: يتفوق في Terminal-Bench 2.0، مثالي لسير العمل الكثيف بالأوامر.
استدعاء أدوات MCP: أفضل نتيجة لـ MCPMark.
تحليل مستندات طويلة: نافذة سياق مليون رمز تدعم مراجعة مستندات ضخمة في استدعاء واحد.
توليد كود الواجهة الأمامية: نتائج متكافئة جدًا مع Claude Opus 4.5.
دعم متعدد اللغات: نتائج قوية في WMT24++ وMAXIFE.

اختبار استدعاءات API لـ Qwen3.6-Plus باستخدام Apidog

النموذج متوافق مع OpenAI، ويمكن استيراده مباشرة إلى Apidog واختباره بسهولة.

أنشئ طلب POST إلى:

   https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions

أضف مفتاح API كمتغير بيئة:

   Authorization: Bearer {{DASHSCOPE_API_KEY}}

أضف التأكيدات للتحقق من الاستجابة:

pm.test("Response contains choices", () => {
  const body = pm.response.json();
  pm.expect(body).to.have.property("choices");
  pm.expect(body.choices[0].message.content).to.be.a("string").and.not.empty;
});

pm.test("No empty reasoning when thinking enabled", () => {
  const choice = pm.response.json().choices[0];
  if (choice.message.reasoning_content !== undefined) {
    pm.expect(choice.message.reasoning_content).to.not.be.empty;
  }
});

استخدم ميزة Smart Mock من Apidog لإنشاء استجابات وهمية أثناء التطوير. اختبر سيناريوهات متعددة الأدوار للتحقق من انتقال الاستدلال مع preserve_thinking قبل النشر.

حمّل Apidog مجانًا لإعداد هذه الاختبارات.

ما هو قادم لاحقًا

فريق Qwen أكد إطلاق إصدارات أصغر مفتوحة المصدر قريبًا بنمط MoE وأوزان Apache 2.0 عامة.

خريطة الطريق:

دعم مهام معقدة على مستوى المستودع وملفات متعددة
تطوير وكلاء متعددين للوسائط (GUI، ترميز مرئي) كقدرات أساسية

من المتوقع أن تصبح إصدارات Qwen3.6 المصغرة الخيار الأول لوكلاء البرمجة المستضافين ذاتيًا فور إصدارها.

الخلاصة

Qwen3.6-Plus ينافس بقوة في مهام البرمجة، ويتفوق بوضوح في عمليات الطرفية واستدعاء أدوات MCP والتخطيط طويل الأجل. نافذة السياق العريضة وتوافق Anthropic ومعلمة preserve_thinking تجعله خيارًا عمليًا لأنظمة الوكلاء الإنتاجية.

واجهة الـ API الرسمية تقدم استقرارًا وSLA ومعلمات متقدمة تجعل العمل متعدد الأدوار أكثر موثوقية. يتعامل Apidog مع اختبارات التكامل: استورد نقطة النهاية، أضف التأكيدات، نفذ المحاكاة، وفعّل اختبارات الانحدار عند تحديث النموذج أو الـ API.

الأسئلة الشائعة

ما الفرق بين Qwen3.6-Plus والنسخة التجريبية؟

النسخة التجريبية (qwen/qwen3.6-plus-preview) أطلقت على OpenRouter في 30 مارس 2026. الإصدار الرسمي يضيف معلمة preserve_thinking، دعم SLA، ودعم Model Studio، مع وعد بإصدارات أصغر مفتوحة المصدر.

ما هي preserve_thinking ومتى أستخدمها؟

افتراضيًا، يتم الاحتفاظ بالاستدلال من الدور الحالي فقط. عند تفعيل preserve_thinking: true يحتفظ النموذج بكامل سلسلة الأفكار من جميع الأدوار السابقة. استخدمها في حلقات الوكيل متعددة الخطوات.

كيف يقارن Qwen3.6-Plus بـ Claude Opus 4.5؟

Claude Opus 4.5 يتصدر في SWE-bench Verified وOSWorld-Verified. أما Qwen3.6-Plus فيتقدم في Terminal-Bench 2.0 وMCPMark وDeepPlanning وGPQA.

هل يمكنني استخدام Qwen3.6-Plus مع Claude Code؟

نعم. فقط عين ANTHROPIC_BASE_URL لنقطة نهاية Dashscope، وANTHROPIC_MODEL إلى qwen3.6-plus، وANTHROPIC_AUTH_TOKEN إلى مفتاح API الخاص بك من Dashscope.

هل Qwen3.6-Plus مفتوح المصدر؟

النموذج المستضاف ليس مفتوح الأوزان، لكن سيتم إطلاق إصدارات أصغر بأوزان عامة خلال أيام.

كيف أحصل على وصول مجاني؟

ثبت Qwen Code (npm install -g @qwen-code/qwen-code@latest)، ثم شغل qwen وأدخل /auth، وسجل الدخول عبر Qwen Code OAuth لتحصل على 1,000 استدعاء مجاني يوميًا.

ما هي نافذة السياق المدعومة؟

مليون رمز افتراضيًا. بعض المعايير استخدمت 256 ألف رمز للمقارنة، لكن الافتراضي في API هو مليون رمز.

كيف أختبر تكامل API قبل النشر؟

استورد نقطة النهاية إلى Apidog، أضف مفتاح API كمتغير بيئة، أضف تأكيدات الاستجابة، واستخدم Smart Mock للتطوير. اربط الطلبات بسيناريو اختباري للتحقق من سلوك الوكيل متعدد الأدوار قبل الإنتاج.

DEV Community