ملخص
VibeVoice هي عائلة من نماذج الذكاء الاصطناعي الصوتي مفتوحة المصدر من Microsoft، وتضم ثلاثة نماذج: VibeVoice-1.5B لتحويل النص إلى كلام (حتى 90 دقيقة، 4 متحدثين)، VibeVoice-Realtime-0.5B للبث الصوتي الفوري، وVibeVoice-ASR للتعرف على الكلام (حتى 60 دقيقة، أكثر من 50 لغة، WER 7.77%). جميع النماذج مرخصة MIT وتعمل محليًا. هذا الدليل يركز على خطوات التثبيت، الاستخدام العملي، وتكامل واجهات البرمجة (API).
مقدمة
أصدرت Microsoft VibeVoice كإطار عمل صوتي مفتوح المصدر في أوائل عام 2026. يوفر نماذج توليد الصوت (TTS) والتعرف على الكلام (ASR) تعمل بالكامل على جهازك دون الحاجة للسحابة.
يتكون الإطار من ثلاث نماذج رئيسية:
- VibeVoice-1.5B: تحويل النص إلى كلام محادثي معبر، حتى 90 دقيقة، دعم 4 متحدثين.
- VibeVoice-Realtime-0.5B: بث صوتي بزمن استجابة منخفض (~300ms).
- VibeVoice-ASR: نسخ الصوت مع تحديد المتحدث والطوابع الزمنية، لأكثر من 50 لغة.
بعد الإطلاق حدثت جدالات حول استنساخ الصوت. أوقفت Microsoft المستودع مؤقتًا، ثم أضافت ضمانات: رسالة صوتية تلقائية ضمن المخرجات وعلامة مائية غير محسوسة.
VibeVoice-ASR متوفر أيضًا على Azure AI Foundry كنقطة نهاية سحابية. نماذج TTS لا تزال للبحث.
سيركز هذا الدليل على التثبيت، التوليد، النسخ، تكامل API، وكيفية اختبار نقاط النهاية باستخدام Apidog.
كيف يعمل VibeVoice: نظرة معمارية سريعة
الإنجاز في مُجزئ الكلمات (Tokenizer)
أهم ابتكار في VibeVoice هو مجزئات الصوت منخفضة الإطارات (7.5Hz مقابل 50-100Hz للنماذج التقليدية)، ما يسمح بمعالجة تسلسلات طويلة (90 دقيقة صوت) بسهولة.
النظام يستخدم:
- مجزئ صوتي: sigma-VAE، يقلل العينات 3200x من صوت 24kHz.
- مجزئ دلالي: يماثل الصوتي لكن مدرّب على مهمة ASR لالتقاط المعنى.
انتشار الرمز التالي (Next-token diffusion)
يجمع بين LLM (Qwen2.5-1.5B) لمعالجة الحوار، ورأس انتشار (123M) يولد التفاصيل الصوتية النهائية باستخدام DDPM.
إجمالي المعلمات: 3 مليارات.
نهج التدريب
يتم تدريب النموذج تدريجيًا على تسلسلات أطول، والمجزئات تظل ثابتة. هكذا يتعامل مع الصوت الطويل مع الحفاظ على الدقة في الحالات القصيرة.
مواصفات نماذج VibeVoice
| النموذج | المعلمات | الغرض | الحد الأقصى للمدة | اللغات | الترخيص |
|---|---|---|---|---|---|
| VibeVoice-1.5B | 3 مليارات | تحويل النص إلى كلام | 90 دقيقة | الإنجليزية، الصينية | MIT |
| VibeVoice-Realtime-0.5B | ~0.5 مليار | تحويل النص إلى كلام بالبث المباشر | طويلة الأمد | الإنجليزية، الصينية | MIT |
| VibeVoice-ASR | ~9 مليارات | التعرف على الكلام | 60 دقيقة | أكثر من 50 لغة | MIT |
VibeVoice-1.5B (تحويل النص إلى كلام)
| المواصفة | القيمة |
|---|---|
| قاعدة النموذج | Qwen2.5-1.5B |
| طول السياق | 64 ألف رمز |
| الحد الأقصى للمتحدثين | 4 متحدثين |
| إخراج الصوت | WAV أحادي 24kHz |
| نوع الموتر | BF16 |
| التنسيق | Safetensors |
| تنزيلات HuggingFace | 62,630 شهريًا |
| تفرعات المجتمع | 12 نسخة معدلة بدقة |
VibeVoice-ASR
| المواصفة | القيمة |
|---|---|
| قاعدة البنية | Qwen2.5 |
| المعلمات | ~9 مليارات |
| معالجة الصوت | حتى 60 دقيقة في تمريرة واحدة |
| معدل الإطارات | 7.5Hz |
| متوسط WER | 7.77% (8 مجموعات بيانات إنجليزية) |
| WER لـ LibriSpeech | 2.20% |
| WER لـ TED-LIUM | 2.57% |
| اللغات | أكثر من 50 |
| الناتج | منظم (من/متى/ماذا) |
| الصوت المدعوم | WAV, FLAC, MP3 (16kHz+) |
التثبيت والإعداد
المتطلبات الأساسية
- Python 3.8+
- وحدة معالجة رسومات NVIDIA مع دعم CUDA
- VRAM لا يقل عن 7-8 جيجابايت لنماذج TTS
- VRAM لا يقل عن 24 جيجابايت لنموذج ASR (A100/H100 موصى به)
- RAM 32 جيجابايت على الأقل (64 جيجابايت لـ ASR موصى به)
- CUDA 11.8+ (يفضل 12.0+)
تثبيت VibeVoice TTS
# استنساخ المستودع
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
# تثبيت الاعتمادات
pip install -r requirements.txt
لتنزيل النماذج مقدمًا:
from huggingface_hub import snapshot_download
# تنزيل نموذج TTS 1.5B
snapshot_download(
"microsoft/VibeVoice-1.5B",
local_dir="./models/VibeVoice-1.5B",
local_dir_use_symlinks=False
)
التثبيت عبر pip (حزمة المجتمع)
pip install vibevoice
التثبيت لـ ASR
git clone https://github.com/microsoft/VibeVoice.git
cd VibeVoice
pip install -r requirements-asr.txt
أو استخدم Azure AI Foundry للنشر السحابي.
توليد الكلام باستخدام VibeVoice-1.5B
توليد بمتحدث واحد
-
أنشئ ملف نصي (script.txt):
Alice: Welcome to the Apidog developer podcast. Today we're covering API testing strategies for 2026. -
نفّذ التوليد:
python VibeVoice \ --model_path microsoft/VibeVoice-1.5B \ --txt_path script.txt \ --speaker_names Alice \ --cfg_scale 1.5
يتم حفظ الإخراج في مجلد outputs/ كملف WAV.
توليد بودكاست متعدد المتحدثين
يدعم حتى 4 متحدثين بهويات صوتية مستقرة:
-
أنشئ ملف نصي متعدد المتحدثين (podcast_script.txt):
Alice: Welcome back to the show. Today we have two API experts joining us. Bob: Thanks for having me. I've been working on REST API design patterns for the past five years. Carol: And I focus on GraphQL performance optimization. Happy to be here. ... -
نفّذ التوليد:
python VibeVoice \ --model_path microsoft/VibeVoice-1.5B \ --txt_path podcast_script.txt \ --speaker_names Alice Bob Carol \ --cfg_scale 1.5
استنساخ الصوت (بدون أمثلة مسبقة)
- جهّز ملف صوتي مرجعي: WAV أحادي، 24kHz، 30-60 ثانية.
-
حوّل بصيغة ffmpeg:
ffmpeg -i source_recording.m4a -ar 24000 -ac 1 reference_voice.wav -
شغّل واجهة Gradio:
python demo/gradio_demo.py
واستخدم المتصفح على http://127.0.0.1:7860 لتوليد صوت مشابه.
البث باستخدام VibeVoice-Realtime-0.5B
للحصول على استجابة صوتية شبه فورية:
python demo/streaming_inference_from_file.py \
--model_path microsoft/VibeVoice-Realtime-0.5B \
--txt_path script.txt \
--speaker_name Alice
النموذج سريع لكن جودة الصوت أقل من 1.5B. استخدمه للتفاعلية.
استخدام VibeVoice مع بايثون
واجهة برمجة تطبيقات الأنابيب (Pipeline API)
from transformers import pipeline
from huggingface_hub import snapshot_download
# تنزيل النموذج
model_path = snapshot_download("microsoft/VibeVoice-1.5B")
# تحميل الأنابيب
pipe = pipeline(
"text-to-speech",
model=model_path,
no_processor=False
)
# نص متعدد المتحدثين
script = [
{"role": "Alice", "content": "How do you handle API versioning?"},
{"role": "Bob", "content": "We use URL path versioning. v1, v2, and so on."},
]
input_data = pipe.processor.apply_chat_template(script)
generate_kwargs = {
"cfg_scale": 1.5,
"n_diffusion_steps": 50,
}
output = pipe(input_data, generate_kwargs=generate_kwargs)
غلاف FastAPI للإنتاج
لتكامل REST متوافق مع OpenAI:
git clone https://github.com/ncoder-ai/VibeVoice-FastAPI.git
cd VibeVoice-FastAPI
docker compose up
اختبر نقطة النهاية:
curl -X POST http://localhost:8000/v1/audio/speech \
-H "Content-Type: application/json" \
-d '{
"model": "vibevoice-1.5b",
"input": "Your API documentation should be a conversation, not a monologue.",
"voice": "alice"
}' \
--output speech.wav
يمكنك اختبار هذه النقطة مع Apidog بنفس تنسيق طلب OpenAI.
استخدام VibeVoice-ASR للتعرف على الكلام
النسخ الأساسي
python asr_inference.py \
--model_path microsoft/VibeVoice-ASR \
--audio_path meeting_recording.wav
تنسيق الإخراج المنظم
النموذج ينتج JSON منظم:
{
"segments": [
{
"speaker": "Speaker 1",
"start": 0.0,
"end": 4.2,
"text": "Let's review the API endpoints for the new release."
},
{
"speaker": "Speaker 2",
"start": 4.5,
"end": 8.1,
"text": "I've added three new endpoints for the billing module."
}
]
}
ASR كخادم MCP
لتكامل تلقائي مع وكلاء الذكاء الاصطناعي:
pip install vibevoice-mcp-server
vibevoice-mcp serve
يمكنك بذلك ربط ASR مباشرة بأدوات مثل Claude Code أو Cursor.
متى تستخدم VibeVoice-ASR مقابل Whisper
| حالة الاستخدام | الأفضل | السبب |
|---|---|---|
| اجتماعات طويلة (30-60 دقيقة) | VibeVoice-ASR | معالجة طويلة وتحديد متحدثين مدمج |
| مقابلات متعددة المتحدثين | VibeVoice-ASR | تحديد متحدث مدمج |
| بودكاست مع طوابع زمنية | VibeVoice-ASR | إخراج منظم (من/متى/ماذا) |
| محتوى متعدد اللغات | VibeVoice-ASR | دعم 50+ لغة |
| مقاطع قصيرة في بيئات صاخبة | Whisper | مقاومة ضوضاء أفضل |
| النشر على أجهزة محمولة | Whisper | نموذج أصغر ودعم أوسع للأجهزة |
| لغات غير إنجليزية متخصصة | Whisper | ضبط دقيق متعدد اللغات أكثر نضجًا |
اختبار واجهات برمجة تطبيقات الذكاء الاصطناعي الصوتي باستخدام Apidog
يمكنك اختبار نقاط النهاية الصوتية بسهولة عبر Apidog سواء كانت محلية أو سحابية.
اختبار نقطة نهاية TTS
- أنشئ طلب POST جديد في Apidog لنقطة النهاية الخاصة بك.
-
استخدم نموذج الطلب التالي:
{ "model": "vibevoice-1.5b", "input": "Test speech synthesis with proper intonation and pacing.", "voice": "alice", "response_format": "wav" } تحقق من أن الاستجابة من نوع
audio/wav.احفظ الملف للتحقق من الجودة.
اختبار نقطة نهاية ASR
- أرسل طلب POST باستخدام
multipart/form-dataوارفق ملف الصوت. - تحقق أن الاستجابة JSON تتضمن معرفات المتحدث والطوابع الزمنية والنص.
التحقق من عقود واجهة برمجة تطبيقات الصوت
Apidog يدعم تحميل الملفات الثنائية لنقاط ASR وطلبات JSON لنقاط TTS، كما يمكنك التبديل بسهولة بين نقاط النهاية المحلية والسحابية باستخدام متغيرات البيئة.
السلامة والاستخدام المسؤول
أضافت Microsoft ضمانات بعد حوادث إساءة الاستخدام:
- إخلاء مسؤولية صوتي: جميع الأصوات المُولدة تحتوي رسالة تلقائية "تم إنشاء هذا المقطع بواسطة الذكاء الاصطناعي".
- علامة مائية غير محسوسة: للتحقق من المصدر.
- تسجيل الاستدلال: لرصد الأنماط المشبوهة.
- ترخيص MIT: يسمح بالاستخدام التجاري، لكن مايكروسوفت توصي بعدم النشر للإنتاج دون اختبار إضافي.
المسموح به
- البحث والأكاديميا
- نماذج أولية واختبار داخلي
- توليد بودكاست مع الإفصاح
- تطبيقات الوصول لضعاف البصر
غير المسموح به
- انتحال الصوت دون موافقة
- التزييف العميق أو تقديم الذكاء الاصطناعي كصوت بشري
- التحويل الصوتي الفوري لأغراض التزييف العميق
- توليد أصوات غير كلامية (موسيقى، مؤثرات)
القيود التي يجب معرفتها
دعم اللغة محدود في TTS: يدعم الإنجليزية والصينية فقط. اللغات الأخرى ليست مدعومة بشكل جيد. أما ASR فيدعم أكثر من 50 لغة.
متطلبات الأجهزة مرتفعة لـ ASR: يحتاج إلى VRAM 24GB+ (A100/H100)، أما TTS يعمل على وحدات معالجة رسومية استهلاكية (7-8GB VRAM).
لا يدعم الكلام المتداخل: TTS يعتمد نظام الأدوار.
تحيزات النموذج: قد تظهر مخرجات متحيزة أو غير دقيقة.
برنامج بحثي: غير جاهز للإنتاج الكامل.
نشر VibeVoice-ASR على Azure AI Foundry
إذا كنت لا ترغب بإدارة البنية التحتية GPU بنفسك، استخدم Azure AI Foundry. تحصل على نقطة نهاية HTTPS لإرسال ملفات الصوت والحصول على نسخ منظمة بصيغة (من/متى/ماذا).
النشر السحابي يوفر إدارة تلقائية للبنية التحتية وضمانات SLA. اختبر نقطة النهاية عبر Apidog قبل دمجها في التطبيق.
المجتمع والنظام البيئي
VibeVoice مدعوم بمجتمع نشط:
- أكثر من 62,630 تنزيل شهريًا على HuggingFace
- أكثر من 2,280 إعجابًا
- 79+ مساحة HuggingFace نشطة
- 12 نسخة معدلة بدقة
- 4 نسخ مكممة للنشر على VRAM أقل
- تفرع مجتمعي نشط على
vibevoice-community/VibeVoice
مشاريع بارزة:
- VibeVoice-FastAPI: غلاف REST مع دعم Docker
- خادم MCP: تكامل مع أدوات برمجة الذكاء الاصطناعي
- دعم Apple Silicon: نصوص للاستدلال على أجهزة Mac M-series
- نماذج مكممة: دعم GGUF وغيره لتقليل VRAM
الأسئلة الشائعة
هل VibeVoice مجاني للاستخدام؟
نعم، كل النماذج الثلاثة مرخصة MIT. يمكنك استخدامها تجاريًا أو غير تجاريًا. الاستضافة على Azure AI Foundry لها تسعير منفصل.
هل يمكن تشغيل VibeVoice على أجهزة Mac بمعالج Apple Silicon؟
نعم، هناك نصوص مجتمعية تدعم أجهزة Mac M-series، لكن الأداء أبطأ من GPU.
كيف يقارن VibeVoice بـ ElevenLabs؟
VibeVoice يعمل محليًا ومجاني، لكن ElevenLabs يوفر جودة أعلى وأصوات أكثر وإعداد أسهل (مدفوع وسحابي).
لماذا تم تعطيل مستودع GitHub مؤقتًا؟
بسبب إساءة استخدام استنساخ الصوت، أوقفت Microsoft المستودع وأضافت ميزات أمان قبل إعادته.
هل يمكنني ضبط VibeVoice بدقة على أصوات مخصصة؟
نعم، باستخدام عينات صوتية واضحة وGPU، ويوجد 12 نسخة معدلة بدقة على HuggingFace.
ما هي تنسيقات الصوت التي ينتجها VibeVoice؟
WAV أحادي 24kHz. يمكن التحويل إلى MP3/OGG/FLAC عبر ffmpeg.
هل يمكنني استخدام VibeVoice-ASR كبديل لـ Whisper؟
للتسجيلات الطويلة مع تحديد المتحدث، نعم. Whisper أفضل للمقاطع القصيرة أو البيئات الصاخبة أو أجهزة الحافة.
هل يدعم VibeVoice الدردشة الصوتية في الوقت الفعلي؟
نعم، عبر VibeVoice-Realtime-0.5B (300ms للدفعة الأولى) لكنه غير مخصص لمحادثات ثنائية الاتجاه بالكامل.
جرّب Apidog اليوم لاختبار تكاملات الذكاء الاصطناعي الصوتي الخاصة بك قبل نشرها للإنتاج: apidog.com






Top comments (0)