Yusuf Khalidd

Posted on Apr 2 • Originally published at apidog.com

ما هو Microsoft VibeVoice؟ وكيفية استخدام نماذج الذكاء الاصطناعي الصوتية مفتوحة المصدر

#ai #microsoft #opensource #tutorial

ملخص

VibeVoice هي عائلة من نماذج الذكاء الاصطناعي الصوتي مفتوحة المصدر من Microsoft، وتضم ثلاثة نماذج: VibeVoice-1.5B لتحويل النص إلى كلام (حتى 90 دقيقة، 4 متحدثين)، VibeVoice-Realtime-0.5B للبث الصوتي الفوري، وVibeVoice-ASR للتعرف على الكلام (حتى 60 دقيقة، أكثر من 50 لغة، WER 7.77%). جميع النماذج مرخصة MIT وتعمل محليًا. هذا الدليل يركز على خطوات التثبيت، الاستخدام العملي، وتكامل واجهات البرمجة (API).

جرّب Apidog اليوم

مقدمة

أصدرت Microsoft VibeVoice كإطار عمل صوتي مفتوح المصدر في أوائل عام 2026. يوفر نماذج توليد الصوت (TTS) والتعرف على الكلام (ASR) تعمل بالكامل على جهازك دون الحاجة للسحابة.

يتكون الإطار من ثلاث نماذج رئيسية:

VibeVoice-1.5B: تحويل النص إلى كلام محادثي معبر، حتى 90 دقيقة، دعم 4 متحدثين.
VibeVoice-Realtime-0.5B: بث صوتي بزمن استجابة منخفض (~300ms).
VibeVoice-ASR: نسخ الصوت مع تحديد المتحدث والطوابع الزمنية، لأكثر من 50 لغة.

بعد الإطلاق حدثت جدالات حول استنساخ الصوت. أوقفت Microsoft المستودع مؤقتًا، ثم أضافت ضمانات: رسالة صوتية تلقائية ضمن المخرجات وعلامة مائية غير محسوسة.

VibeVoice-ASR متوفر أيضًا على Azure AI Foundry كنقطة نهاية سحابية. نماذج TTS لا تزال للبحث.

سيركز هذا الدليل على التثبيت، التوليد، النسخ، تكامل API، وكيفية اختبار نقاط النهاية باستخدام Apidog.

كيف يعمل VibeVoice: نظرة معمارية سريعة

الإنجاز في مُجزئ الكلمات (Tokenizer)

أهم ابتكار في VibeVoice هو مجزئات الصوت منخفضة الإطارات (7.5Hz مقابل 50-100Hz للنماذج التقليدية)، ما يسمح بمعالجة تسلسلات طويلة (90 دقيقة صوت) بسهولة.

النظام يستخدم:

مجزئ صوتي: sigma-VAE، يقلل العينات 3200x من صوت 24kHz.
مجزئ دلالي: يماثل الصوتي لكن مدرّب على مهمة ASR لالتقاط المعنى.

انتشار الرمز التالي (Next-token diffusion)

يجمع بين LLM (Qwen2.5-1.5B) لمعالجة الحوار، ورأس انتشار (123M) يولد التفاصيل الصوتية النهائية باستخدام DDPM.

إجمالي المعلمات: 3 مليارات.

نهج التدريب

يتم تدريب النموذج تدريجيًا على تسلسلات أطول، والمجزئات تظل ثابتة. هكذا يتعامل مع الصوت الطويل مع الحفاظ على الدقة في الحالات القصيرة.

مواصفات نماذج VibeVoice

النموذج	المعلمات	الغرض	الحد الأقصى للمدة	اللغات	الترخيص
VibeVoice-1.5B	3 مليارات	تحويل النص إلى كلام	90 دقيقة	الإنجليزية، الصينية	MIT
VibeVoice-Realtime-0.5B	~0.5 مليار	تحويل النص إلى كلام بالبث المباشر	طويلة الأمد	الإنجليزية، الصينية	MIT
VibeVoice-ASR	~9 مليارات	التعرف على الكلام	60 دقيقة	أكثر من 50 لغة	MIT

VibeVoice-1.5B (تحويل النص إلى كلام)

المواصفة	القيمة
قاعدة النموذج	Qwen2.5-1.5B
طول السياق	64 ألف رمز
الحد الأقصى للمتحدثين	4 متحدثين
إخراج الصوت	WAV أحادي 24kHz
نوع الموتر	BF16
التنسيق	Safetensors
تنزيلات HuggingFace	62,630 شهريًا
تفرعات المجتمع	12 نسخة معدلة بدقة

VibeVoice-ASR

المواصفة	القيمة
قاعدة البنية	Qwen2.5
المعلمات	~9 مليارات
معالجة الصوت	حتى 60 دقيقة في تمريرة واحدة
معدل الإطارات	7.5Hz
متوسط WER	7.77% (8 مجموعات بيانات إنجليزية)
WER لـ LibriSpeech	2.20%
WER لـ TED-LIUM	2.57%
اللغات	أكثر من 50
الناتج	منظم (من/متى/ماذا)
الصوت المدعوم	WAV, FLAC, MP3 (16kHz+)

التثبيت والإعداد

المتطلبات الأساسية

Python 3.8+
وحدة معالجة رسومات NVIDIA مع دعم CUDA
VRAM لا يقل عن 7-8 جيجابايت لنماذج TTS
VRAM لا يقل عن 24 جيجابايت لنموذج ASR (A100/H100 موصى به)
RAM 32 جيجابايت على الأقل (64 جيجابايت لـ ASR موصى به)
CUDA 11.8+ (يفضل 12.0+)

تثبيت VibeVoice TTS

# استنساخ المستودع
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice

# تثبيت الاعتمادات
pip install -r requirements.txt

لتنزيل النماذج مقدمًا:

from huggingface_hub import snapshot_download

# تنزيل نموذج TTS 1.5B
snapshot_download(
    "microsoft/VibeVoice-1.5B",
    local_dir="./models/VibeVoice-1.5B",
    local_dir_use_symlinks=False
)

التثبيت عبر pip (حزمة المجتمع)

pip install vibevoice

التثبيت لـ ASR

git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt

أو استخدم Azure AI Foundry للنشر السحابي.

توليد الكلام باستخدام VibeVoice-1.5B

توليد بمتحدث واحد

أنشئ ملف نصي (script.txt):

Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026.

نفّذ التوليد:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path script.txt \
  --speaker_names Alice \
  --cfg_scale 1.5

يتم حفظ الإخراج في مجلد outputs/ كملف WAV.

توليد بودكاست متعدد المتحدثين

يدعم حتى 4 متحدثين بهويات صوتية مستقرة:

أنشئ ملف نصي متعدد المتحدثين (podcast_script.txt):

Alice: Welcome back to the show. Today we have two API experts joining us.
Bob: Thanks for having me. I've been working on REST API design patterns for the past five years.
Carol: And I focus on GraphQL performance optimization. Happy to be here.
...

نفّذ التوليد:

python VibeVoice \
  --model_path microsoft/VibeVoice-1.5B \
  --txt_path podcast_script.txt \
  --speaker_names Alice Bob Carol \
  --cfg_scale 1.5

استنساخ الصوت (بدون أمثلة مسبقة)

جهّز ملف صوتي مرجعي: WAV أحادي، 24kHz، 30-60 ثانية.

حوّل بصيغة ffmpeg:

ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav

شغّل واجهة Gradio:
```
python demo/gradio_demo.py
```

واستخدم المتصفح على http://127.0.0.1:7860 لتوليد صوت مشابه.

البث باستخدام VibeVoice-Realtime-0.5B

للحصول على استجابة صوتية شبه فورية:

python demo/streaming_inference_from_file.py \
  --model_path microsoft/VibeVoice-Realtime-0.5B \
  --txt_path script.txt \
  --speaker_name Alice

النموذج سريع لكن جودة الصوت أقل من 1.5B. استخدمه للتفاعلية.

استخدام VibeVoice مع بايثون

واجهة برمجة تطبيقات الأنابيب (Pipeline API)

from transformers import pipeline
from huggingface_hub import snapshot_download

# تنزيل النموذج
model_path = snapshot_download("microsoft/VibeVoice-1.5B")

# تحميل الأنابيب
pipe = pipeline(
    "text-to-speech",
    model=model_path,
    no_processor=False
)

# نص متعدد المتحدثين
script = [
    {"role": "Alice", "content": "How do you handle API versioning?"},
    {"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]

input_data = pipe.processor.apply_chat_template(script)

generate_kwargs = {
    "cfg_scale": 1.5,
    "n_diffusion_steps": 50,
}

output = pipe(input_data, generate_kwargs=generate_kwargs)

غلاف FastAPI للإنتاج

لتكامل REST متوافق مع OpenAI:

git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up

اختبر نقطة النهاية:

curl -X POST http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{
    "model": "vibevoice-1.5b",
    "input": "Your API documentation should be a conversation, not a monologue.",
    "voice": "alice"
  }' \
  --output speech.wav

يمكنك اختبار هذه النقطة مع Apidog بنفس تنسيق طلب OpenAI.

استخدام VibeVoice-ASR للتعرف على الكلام

النسخ الأساسي

python asr_inference.py \
  --model_path microsoft/VibeVoice-ASR \
  --audio_path meeting_recording.wav

تنسيق الإخراج المنظم

النموذج ينتج JSON منظم:

{
  "segments": [
    {
      "speaker": "Speaker 1",
      "start": 0.0,
      "end": 4.2,
      "text": "Let's review the API endpoints for the new release."
    },
    {
      "speaker": "Speaker 2",
      "start": 4.5,
      "end": 8.1,
      "text": "I've added three new endpoints for the billing module."
    }
  ]
}

ASR كخادم MCP

لتكامل تلقائي مع وكلاء الذكاء الاصطناعي:

pip install vibevoice-mcp-server
vibevoice-mcp serve

يمكنك بذلك ربط ASR مباشرة بأدوات مثل Claude Code أو Cursor.

متى تستخدم VibeVoice-ASR مقابل Whisper

حالة الاستخدام	الأفضل	السبب
اجتماعات طويلة (30-60 دقيقة)	VibeVoice-ASR	معالجة طويلة وتحديد متحدثين مدمج
مقابلات متعددة المتحدثين	VibeVoice-ASR	تحديد متحدث مدمج
بودكاست مع طوابع زمنية	VibeVoice-ASR	إخراج منظم (من/متى/ماذا)
محتوى متعدد اللغات	VibeVoice-ASR	دعم 50+ لغة
مقاطع قصيرة في بيئات صاخبة	Whisper	مقاومة ضوضاء أفضل
النشر على أجهزة محمولة	Whisper	نموذج أصغر ودعم أوسع للأجهزة
لغات غير إنجليزية متخصصة	Whisper	ضبط دقيق متعدد اللغات أكثر نضجًا

اختبار واجهات برمجة تطبيقات الذكاء الاصطناعي الصوتي باستخدام Apidog

يمكنك اختبار نقاط النهاية الصوتية بسهولة عبر Apidog سواء كانت محلية أو سحابية.

اختبار نقطة نهاية TTS

أنشئ طلب POST جديد في Apidog لنقطة النهاية الخاصة بك.

استخدم نموذج الطلب التالي:

{
  "model": "vibevoice-1.5b",
  "input": "Test speech synthesis with proper intonation and pacing.",
  "voice": "alice",
  "response_format": "wav"
}

تحقق من أن الاستجابة من نوع audio/wav.
احفظ الملف للتحقق من الجودة.

اختبار نقطة نهاية ASR

أرسل طلب POST باستخدام multipart/form-data وارفق ملف الصوت.
تحقق أن الاستجابة JSON تتضمن معرفات المتحدث والطوابع الزمنية والنص.

التحقق من عقود واجهة برمجة تطبيقات الصوت

Apidog يدعم تحميل الملفات الثنائية لنقاط ASR وطلبات JSON لنقاط TTS، كما يمكنك التبديل بسهولة بين نقاط النهاية المحلية والسحابية باستخدام متغيرات البيئة.

السلامة والاستخدام المسؤول

أضافت Microsoft ضمانات بعد حوادث إساءة الاستخدام:

إخلاء مسؤولية صوتي: جميع الأصوات المُولدة تحتوي رسالة تلقائية "تم إنشاء هذا المقطع بواسطة الذكاء الاصطناعي".
علامة مائية غير محسوسة: للتحقق من المصدر.
تسجيل الاستدلال: لرصد الأنماط المشبوهة.
ترخيص MIT: يسمح بالاستخدام التجاري، لكن مايكروسوفت توصي بعدم النشر للإنتاج دون اختبار إضافي.

المسموح به

البحث والأكاديميا
نماذج أولية واختبار داخلي
توليد بودكاست مع الإفصاح
تطبيقات الوصول لضعاف البصر

غير المسموح به

انتحال الصوت دون موافقة
التزييف العميق أو تقديم الذكاء الاصطناعي كصوت بشري
التحويل الصوتي الفوري لأغراض التزييف العميق
توليد أصوات غير كلامية (موسيقى، مؤثرات)

القيود التي يجب معرفتها

دعم اللغة محدود في TTS: يدعم الإنجليزية والصينية فقط. اللغات الأخرى ليست مدعومة بشكل جيد. أما ASR فيدعم أكثر من 50 لغة.

متطلبات الأجهزة مرتفعة لـ ASR: يحتاج إلى VRAM 24GB+ (A100/H100)، أما TTS يعمل على وحدات معالجة رسومية استهلاكية (7-8GB VRAM).

لا يدعم الكلام المتداخل: TTS يعتمد نظام الأدوار.

تحيزات النموذج: قد تظهر مخرجات متحيزة أو غير دقيقة.

برنامج بحثي: غير جاهز للإنتاج الكامل.

نشر VibeVoice-ASR على Azure AI Foundry

إذا كنت لا ترغب بإدارة البنية التحتية GPU بنفسك، استخدم Azure AI Foundry. تحصل على نقطة نهاية HTTPS لإرسال ملفات الصوت والحصول على نسخ منظمة بصيغة (من/متى/ماذا).

النشر السحابي يوفر إدارة تلقائية للبنية التحتية وضمانات SLA. اختبر نقطة النهاية عبر Apidog قبل دمجها في التطبيق.

المجتمع والنظام البيئي

VibeVoice مدعوم بمجتمع نشط:

أكثر من 62,630 تنزيل شهريًا على HuggingFace
أكثر من 2,280 إعجابًا
79+ مساحة HuggingFace نشطة
12 نسخة معدلة بدقة
4 نسخ مكممة للنشر على VRAM أقل
تفرع مجتمعي نشط على vibevoice-community/VibeVoice

مشاريع بارزة:

VibeVoice-FastAPI: غلاف REST مع دعم Docker
خادم MCP: تكامل مع أدوات برمجة الذكاء الاصطناعي
دعم Apple Silicon: نصوص للاستدلال على أجهزة Mac M-series
نماذج مكممة: دعم GGUF وغيره لتقليل VRAM

الأسئلة الشائعة

هل VibeVoice مجاني للاستخدام؟

نعم، كل النماذج الثلاثة مرخصة MIT. يمكنك استخدامها تجاريًا أو غير تجاريًا. الاستضافة على Azure AI Foundry لها تسعير منفصل.

هل يمكن تشغيل VibeVoice على أجهزة Mac بمعالج Apple Silicon؟

نعم، هناك نصوص مجتمعية تدعم أجهزة Mac M-series، لكن الأداء أبطأ من GPU.

كيف يقارن VibeVoice بـ ElevenLabs؟

VibeVoice يعمل محليًا ومجاني، لكن ElevenLabs يوفر جودة أعلى وأصوات أكثر وإعداد أسهل (مدفوع وسحابي).

لماذا تم تعطيل مستودع GitHub مؤقتًا؟

بسبب إساءة استخدام استنساخ الصوت، أوقفت Microsoft المستودع وأضافت ميزات أمان قبل إعادته.

هل يمكنني ضبط VibeVoice بدقة على أصوات مخصصة؟

نعم، باستخدام عينات صوتية واضحة وGPU، ويوجد 12 نسخة معدلة بدقة على HuggingFace.

ما هي تنسيقات الصوت التي ينتجها VibeVoice؟

WAV أحادي 24kHz. يمكن التحويل إلى MP3/OGG/FLAC عبر ffmpeg.

هل يمكنني استخدام VibeVoice-ASR كبديل لـ Whisper؟

للتسجيلات الطويلة مع تحديد المتحدث، نعم. Whisper أفضل للمقاطع القصيرة أو البيئات الصاخبة أو أجهزة الحافة.

هل يدعم VibeVoice الدردشة الصوتية في الوقت الفعلي؟

نعم، عبر VibeVoice-Realtime-0.5B (300ms للدفعة الأولى) لكنه غير مخصص لمحادثات ثنائية الاتجاه بالكامل.

جرّب Apidog اليوم لاختبار تكاملات الذكاء الاصطناعي الصوتي الخاصة بك قبل نشرها للإنتاج: apidog.com