Yusuf Khalidd

Posted on Mar 31 • Originally published at apidog.com

Qwen3.5-Omni هنا: الذكاء الاصطناعي متعدد الوسائط من علي بابا يتفوق على Gemini في الصوت

#ai #llm #machinelearning #news

ملخص سريع

أطلقت علي بابا Qwen3.5-Omni في 30 مارس 2026. النموذج يدعم معالجة النصوص، الصور، الصوت، والفيديو ضمن نموذج واحد ويُخرج نصًا أو كلامًا في الوقت الفعلي. يتفوق على Gemini 3.1 Pro في معايير فهم الصوت والاستنتاج، ويدعم 113 لغة للتعرف على الكلام، ويشمل استنساخ الصوت. يتوفر بثلاثة إصدارات: Plus و Flash و Light.

جرّب Apidog اليوم

نموذج واحد لكل شيء

سير عمل الذكاء الاصطناعي المعتاد يربط بين نماذج منفصلة: تحويل الكلام إلى نص، الرؤية، توليد النصوص، تحويل النص إلى كلام، إلخ. كل طبقة تضيف زمن انتقال وتكلفة ونقاط فشل إضافية.

Qwen3.5-Omni يدمج هذه الطبقات ويقبل نصوصًا، صورًا، صوتًا، وفيديو كمداخل ويُعيد نصًا أو كلامًا ضمن استدعاء نموذج واحد. نافذة السياق تصل إلى 256,000 رمز (أكثر من 10 ساعات صوت أو 400 ثانية فيديو 720p).

تدريب النموذج تم على أكثر من 100 مليون ساعة بيانات سمعية بصرية أصلية، مما يمكّنه من الاستدلال عبر جميع الأنماط في الوقت نفسه.

إذا كنت تبني تطبيقات تشمل صوت أو فيديو أو صور أو نصوص، هذا النموذج يغير طريقة عملك مع الـ API.

ما الذي تغير عن Qwen3-Omni

الإصدار السابق Qwen3-Omni Flash أُطلق في ديسمبر 2025 بسرعة استجابة 234 مللي ثانية. Qwen3.5-Omni هو التحديث الشامل التالي. أبرز التغييرات:

تغطية لغوية موسعة

التعرف على الكلام توسع من 19 إلى 113 لغة ولهجة.
توليد الكلام من 10 لغات إلى 36 لغة.
أصبح النموذج ملائمًا عالميًا وليس فقط للأسواق الغربية.

استنساخ الصوت مدمج

يمكنك رفع عينة صوتية ليجيب النموذج بنفس الصوت عبر الـ API في إصداري Plus و Flash.
استجابة النموذج تحافظ على شخصية صوتية متناسقة حتى عبر محادثات طويلة.

تقنية ARIA للقضاء على تشويش الصوت

الكلمات التقنية والأرقام تقرأ الآن بدقة (مثل: “IPv6”، “Qwen3.5-Omni”، “249.99 دولارًا”).
طبقة ARIA تزامن النص والصوت وتضبط الفونيمات قبل إخراج الصوت.

التقاطع الدلالي الطبيعي

النموذج يفرق بين تغذية راجعة صوتية ("آه-ها") وأوامر الإيقاف ("انتظر، توقف").
المحادثات الصوتية تبدو طبيعية أكثر.

بحث ويب في الوقت الفعلي

يمكن للنموذج الاستعلام عن الويب أثناء الاستدلال ودمج النتائج في الردود مباشرة.

الترميز المرئي والسمعي التفاعلي

سجل الشاشة وأرسل الفيديو للنموذج ليولّد كودًا وظيفيًا من السياق المرئي مباشرة.

نتائج المعايير

يتفوّق Qwen3.5-Omni على مستوى العالم في 32 من 36 معيار صوتي وسمعي بصري.
يحقق أداءً جديدًا متقدمًا في 22 معيار.
يتقدم على Gemini 3.1 Pro في الفهم الصوتي، الاستنتاج، والترجمة.
يتساوى مع Gemini 3.1 Pro في الفهم السمعي البصري.
في توليد الصوت متعدد اللغات، يتفوق على ElevenLabs و GPT-Audio و Minimax عبر 20 لغة.

إصدارات النموذج

تتوفر ثلاثة إصدارات:

الإصدار	الأفضل لـ
Qwen3.5-Omni Plus	أقصى جودة؛ استدلال سمعي بصري، استنساخ الصوت، مهام السياق الطويل
Qwen3.5-Omni Flash	توازن بين السرعة والجودة؛ محادثة صوتية في الوقت الفعلي، واجهات إنتاجية
Qwen3.5-Omni Light	زمن انتقال منخفض؛ سيناريوهات الجوال والحوسبة الطرفية

جميع الإصدارات تدعم النص، الصور، الصوت، والفيديو كمداخل. الفروقات في جودة المخرجات، زمن الانتقال، والتكلفة. Plus الأعلى جودة؛ Flash مناسب للبداية في الإنتاج.

نافذة سياق 256 ألف رمز

الصوت: أكثر من 10 ساعات من الكلام.
الفيديو: حوالي 400 ثانية فيديو 720p مع صوت.
النص: حتى 190,000 كلمة (حجم رواية).

مثالي لاجتماعات، فيديوهات توضيحية، أو مكالمات دعم طويلة، دون الحاجة لتقسيم المدخلات.

بالمقارنة: GPT-4o يدعم 128 ألف، Gemini 2.5 Pro يدعم مليون رمز. Qwen3.5-Omni أصغر من Gemini من حيث السياق، لكن أداءه السمعي البصري يعوض ذلك في معظم التطبيقات العملية.

التعرف على الكلام بـ 113 لغة

الانتقال من 19 إلى 113 لغة مهم لـ:

دعم العملاء عالميًا: استقبل واستجب للمستخدمين بأي لغة رئيسية دون تحويلات ASR منفصلة.
معالجة محتوى متعدد اللغات: نسخ وترجمة بودكاست وفيديوهات بأي لغة في استدعاء واحد.
التبديل بين اللغات: يدعم المحادثات التي تتغير فيها اللغة في منتصف الجملة بدون فقد الدقة.

البنية: Thinker-Talker مع MoE

يعتمد النموذج بنية Thinker-Talker:

المفكر: يعالج كل أنواع الإدخال ويولد رموز الاستدلال.
المتحدث: يحول الرموز إلى كلام طبيعي في الوقت الفعلي بأقل زمن انتقال عبر عدة قواميس.

إصدار Plus يستخدم مزيج الخبراء (MoE) لتفعيل جزء من المعلمات فقط لكل رمز، مما يحسّن سرعة وكفاءة الذاكرة.

للتركيب المحلي: vLLM هو خادم الاستدلال الموصى به لدعم MoE، بينما HuggingFace Transformers أبطأ في معماريات MoE.

أهمية Apidog

عند اختبار واجهة Qwen3.5-Omni، ستحتاج لإرسال طلبات JSON مع أصوات مشفّرة base64، عناوين صور، مراجع فيديو، ونصوص معًا.

تصحيح هذه الطلبات يدويًا صعب. Apidog يساعدك في:

بناء وحفظ قوالب طلبات Qwen3.5-Omni.
تعيين متغيرات بيئة لمفاتيح API.
كتابة اختبارات تلقائية للتحقق من البنية والمحتوى.
مقارنة الإصدارات الثلاثة (Plus, Flash, Light) في نفس الوقت لقياس الأداء.

لمن هذا المنتج؟

قيّم Qwen3.5-Omni إذا كنت تطور:

مساعدين صوتيين: كلام في الوقت الفعلي دخولاً وخروجًا، مع استرجاع ويب وذاكرة محادثة.
أدوات تحليل فيديو: تلخيص أو نسخ أو شرح فيديو مستمر بدون تقسيم.
منتجات متعددة اللغات: ASR بـ 113 لغة وTTS بـ 36 لغة في نموذج واحد.
أدوات وصول: توليد نصوص بديلة ووصف صوتي وصناعة تعليقات توضيحية في الوقت الفعلي.
أدوات إنتاجية المطورين: تحويل تسجيلات الشاشة إلى كود وظيفي عبر الترميز التفاعلي.

الوصول

Qwen3.5-Omni متوفر عبر:

واجهة برمجة تطبيقات Alibaba Cloud DashScope (API إنتاجي).
qwen.ai (واجهة ويب للاختبار).
HuggingFace Hub (أوزان للنشر المحلي).
ModelScope (موصى به لمستخدمي البر الرئيسي للصين).

واجهة الـ API تتبع مصادقة Alibaba Cloud. ستحتاج مفتاح API لـ DashScope. راجع وثائق DashScope للتفاصيل والأسعار.

ما يجب الانتباه إليه

الأداء في المعايير لا يضمن أداء واقعي في تطبيقك، اختبر النموذج مباشرة على بياناتك.
استنساخ الصوت متاح فقط عبر الـ API حالياً، غير متوفر عبر الويب.
النشر المحلي (Plus) يتطلب 40GB+ VRAM. Flash و Light يعملان على عتاد أصغر.

الأسئلة الشائعة

ما الفرق بين Qwen3.5-Omni و Qwen2.5-Omni؟

Qwen2.5-Omni كان يدعم نماذج كثيفة 7B و3B مع 19 لغة. Qwen3.5-Omni يستخدم MoE، يدعم 113 لغة، يضيف استنساخ الصوت، ويقدم ARIA لجودة صوت أعلى مع نافذة سياق ومعايير أداء أكبر.

هل يمكنني تشغيل Qwen3.5-Omni محليًا؟

نعم، عبر HuggingFace Transformers أو vLLM. إصدار Plus يحتاج 40GB+ VRAM، Flash و Light يعملان على GPU أصغر. vLLM هو الخيار الأفضل لاستدلال MoE المحلي.

هل توجد طبقة مجانية؟

واجهة qwen.ai مجانية. الوصول إلى الـ API عبر DashScope مدفوع. الأسعار لكل نمط (صوت، فيديو، نص) في وثائق DashScope.

هل يدعم البث في الوقت الفعلي؟

نعم، بنية Thinker-Talker تدعم إخراج الصوت مجزأً فور توليده، ما يجعل المحادثة الصوتية طبيعية وسريعة.

ما الفرق بين Plus و Flash و Light؟

Plus: أعلى جودة، للمهام الحرجة للدقة.
Flash: توازن بين السرعة والجودة، مناسب للإنتاج.
Light: أسرع، للأجهزة الحساسة للزمن (موبايل، Edge).

هل يمكنني استخدام صوتي الخاص مع الـ API؟

نعم، عبر استنساخ الصوت في الـ API. ارفع عينة صوتية ويخرج النموذج الكلام بنفس الشخصية الصوتية. غير متوفر على الويب حاليًا.

كيف يقارن مع ElevenLabs في توليد الصوت؟

في معايير علي بابا، Qwen3.5-Omni Plus يتفوق في استقرار الصوت متعدد اللغات. ElevenLabs لديه تخصيص صوتي أوسع. إذا كنت تريد قدرات صوت فقط، قارن بينهما مباشرة. إذا أردت نموذج متعدد الأنماط متكامل، Qwen3.5-Omni هو الأنسب.

هل من الآمن إرسال بيانات صوت/فيديو حساسة عبر الـ API؟

راجع اتفاقية معالجة البيانات في Alibaba Cloud لأي محتوى حساس. كأي API سحابي، افترض أن البيانات قد تُسجّل ما لم يذكر خلاف ذلك بوضوح.

DEV Community