TL;DR
Alibaba merilis Qwen3.5-Omni pada 30 Maret 2026. Model ini memproses teks, gambar, audio, dan video dalam satu model serta menghasilkan teks dan ucapan real-time. Qwen3.5-Omni mengungguli Gemini 3.1 Pro pada tolok ukur pemahaman dan penalaran audio, mendukung 113 bahasa untuk pengenalan ucapan, dan menyediakan kloning suara. Tersedia dalam tiga varian: Plus, Flash, dan Light.
Satu Model untuk Segala Modalitas
Sebagian besar workflow AI memerlukan beberapa model berbeda: satu untuk speech-to-text, satu untuk visi, satu untuk text generation, dan satu lagi untuk text-to-speech. Ini menambah latensi dan kompleksitas.
Qwen3.5-Omni menyederhanakan proses ini. Model ini menerima teks, gambar, audio, dan video sebagai input, mengembalikan teks atau ucapan dalam satu inferensi. Jendela konteksnya 256.000 token (cukup untuk >10 jam audio atau 400 detik video 720p dengan audio).
Alibaba melatih model ini dengan >100 juta jam data audio-visual asli, sehingga mampu menangani berbagai modalitas dan penalaran lintas modalitas secara simultan.
Jika Anda membuat aplikasi yang menggabungkan suara, video, gambar, dan teks, Anda kini bisa menangani semua itu lewat satu API.
Apa yang Berubah dari Qwen3-Omni
Generasi sebelumnya, Qwen3-Omni Flash, rilis Desember 2025 dengan latensi 234ms. Qwen3.5-Omni adalah iterasi selanjutnya.
Cakupan Bahasa Meningkat
Pengenalan ucapan kini mencakup 113 bahasa dan dialek (dari 19), pembuatan ucapan naik ke 36 bahasa (dari 10). Ini memungkinkan aplikasi global tanpa pipeline ASR terpisah.
Kloning Suara Terintegrasi
Anda dapat mengunggah sampel suara dan meminta model merespons dengan suara tersebut via API (Plus dan Flash). Cocok untuk persona suara yang konsisten dalam percakapan panjang.
Teknologi ARIA untuk TTS
ARIA, lapisan sinkronisasi TTS, mengatasi distorsi istilah teknis dan angka. Model membaca buffer teks untuk memastikan pengucapan benar pada istilah seperti "IPv6", "$249.99", dan "Qwen3.5-Omni".
Interupsi Semantik
Model membedakan antara backchannel ("uh-huh") dan interupsi nyata ("tunggu, berhenti") sehingga percakapan suara lebih natural.
Pencarian Web Real-Time
Model dapat melakukan query web langsung saat inferensi dan menggabungkan hasilnya ke respons, tanpa perlu prefetching manual.
Pengodean Vibe Audio-Visual
Rekaman layar bisa digunakan sebagai input. Berikan video ke model, dan minta menghasilkan/mengimprovisasi kode dari konteks visual. Input video => output kode.
Hasil Tolok Ukur
- Qwen3.5-Omni unggul di 32 dari 36 tolok ukur audio & audio-visual
- Menetapkan state-of-the-art baru di 22 tolok ukur
- Mengungguli Gemini 3.1 Pro di pemahaman, penalaran, dan terjemahan audio
- Setara dengan Gemini 3.1 Pro pada pemahaman audio-visual
Untuk kualitas TTS, Qwen3.5-Omni mengalahkan ElevenLabs, GPT-Audio, dan Minimax pada stabilitas suara multibahasa di 20 bahasa.
Varian Model
Alibaba merilis tiga varian:
| Varian | Terbaik untuk |
|---|---|
| Qwen3.5-Omni Plus | Kualitas maksimum, penalaran audio-visual, kloning suara, konteks panjang |
| Qwen3.5-Omni Flash | Keseimbangan kecepatan & kualitas, obrolan suara real-time, API produksi |
| Qwen3.5-Omni Light | Latensi rendah, skenario seluler & edge |
Ketiganya mendukung input teks, gambar, audio, video. Pilih Plus untuk tolok ukur, Flash untuk aplikasi produksi, Light untuk kebutuhan latensi rendah.
Jendela Konteks 256K Token
256K token =
- Audio: >10 jam ucapan kontinu
- Video: ~400 detik video 720p dengan audio
- Teks: ~190.000 kata
Contoh kasus penggunaan: rekaman meeting 30 menit, video demo produk, atau panggilan CS panjang dapat dimasukkan dalam satu permintaan API.
Dibanding GPT-4o (128K) dan Gemini 2.5 Pro (1M), Qwen3.5-Omni menawarkan performa audio-visual unggul walau token lebih sedikit.
Pengenalan Ucapan 113 Bahasa
Peningkatan ke 113 bahasa sangat relevan untuk:
- Dukungan pelanggan global: Satu model untuk semua bahasa tanpa pipeline ASR terpisah.
- Pemrosesan konten multibahasa: Podcast/video non-Inggris bisa ditranskripsi, diterjemahkan, diringkas dalam satu permintaan.
- Pergantian bahasa: Model menangani code-switching antar bahasa tanpa menurunkan akurasi.
Arsitektur: Thinker-Talker dengan MoE
Model menggunakan arsitektur Thinker-Talker:
- Thinker: Memproses input multimodal, menghasilkan token penalaran.
- Talker: Mengubah token jadi ucapan real-time via multi-codebook (latensi rendah).
Varian Plus mengadopsi Mixture of Experts (MoE), sehingga hanya sebagian parameter aktif per token. Ini membuat inferensi efisien.
Untuk deployment lokal, gunakan server inferensi vLLM (optimal untuk MoE). HuggingFace Transformers juga mendukung, tapi lebih lambat untuk MoE.
Apidog untuk Pengujian API Multimodal
Ketika menguji API Qwen3.5-Omni, Anda akan mengirim permintaan dengan JSON berisi audio base64, URL gambar, referensi video, dan teks.
Tanpa klien API yang tepat, debug jadi sulit. Apidog memungkinkan Anda:
- Membuat & menyimpan template permintaan Qwen3.5-Omni
- Mengatur variabel lingkungan untuk API key
- Menulis pengujian otomatis untuk memverifikasi struktur/konten respons
- Bandingkan Plus, Flash, dan Light secara berdampingan (latensi & output)
Unduh Apidog gratis untuk mulai menguji permintaan API multimodal.
Untuk Siapa Qwen3.5-Omni
Pertimbangkan Qwen3.5-Omni jika Anda membangun:
- Asisten suara: Ucapan masuk/keluar real-time, memori percakapan, web retrieval, UX suara natural.
- Alat analisis video: Ringkasan otomatis, transkripsi meeting, pembuatan tutorial dari rekaman layar.
- Produk multibahasa: ASR 113-bahasa, TTS 36-bahasa, tanpa vendor terpisah.
- Alat aksesibilitas: Pembuatan alt-teks gambar, deskripsi audio video, teks-tertutup real-time.
- Alat produktivitas developer: Audio-Visual Vibe Coding, input rekaman layar jadi kode.
Cara Akses
Qwen3.5-Omni tersedia melalui:
- Alibaba Cloud DashScope API (akses produksi)
- qwen.ai (antarmuka web untuk pengujian)
- HuggingFace Hub (bobot model untuk deployment lokal)
- ModelScope (rekomendasi untuk Tiongkok)
Gunakan kunci API DashScope dan ikuti dokumentasi DashScope untuk endpoint dan harga.
Hal yang Perlu Diperhatikan
- Performa benchmark tinggi, tapi lakukan pengujian langsung pada kasus penggunaan spesifik Anda (domain, aksen, format video).
- Kloning suara tersedia via API, belum di web interface.
- Deployment lokal varian Plus (30B MoE) butuh setidaknya 40GB VRAM. Flash dan Light lebih ringan.
FAQ
Apa perbedaan Qwen3.5-Omni dengan Qwen2.5-Omni?
Qwen2.5-Omni: model padat 7B/3B, 19 bahasa ucapan.
Qwen3.5-Omni: arsitektur MoE, 113 bahasa ucapan, kloning suara, ARIA, jendela konteks & benchmark jauh meningkat.
Bisakah saya menjalankan Qwen3.5-Omni secara lokal?
Bisa, via HuggingFace Transformers atau vLLM. Plus butuh VRAM 40GB+, Flash/Light bisa di GPU lebih kecil. vLLM direkomendasikan untuk produksi.
Apakah ada versi gratis?
Web interface qwen.ai gratis. API DashScope berbayar, harga per modalitas tersedia di dokumentasi.
Apakah mendukung streaming real-time?
Ya. Arsitektur Thinker-Talker memungkinkan audio streaming sehingga byte audio pertama muncul sebelum respons penuh selesai.
Apa beda Plus, Flash, dan Light?
- Plus: Kualitas tertinggi, tugas akurasi tinggi.
- Flash: Seimbang, cocok API produksi.
- Light: Tercepat, untuk aplikasi latensi rendah/mobile/edge.
Bisakah saya menggunakan suara sendiri via API?
Bisa, lewat fitur kloning suara API. Upload sampel audio, model menggunakan suara tersebut untuk output. Belum tersedia di web.
Bagaimana perbandingannya dengan ElevenLabs untuk pembuatan suara?
Benchmark Alibaba: Qwen3.5-Omni Plus unggul dalam stabilitas suara multibahasa. ElevenLabs punya opsi penyesuaian lebih banyak. Jika butuh hanya suara, ElevenLabs layak diuji; untuk kebutuhan multimodal, Qwen3.5-Omni lebih tepat.
Apakah aman mengirim data audio/video sensitif via API?
Tinjau perjanjian data Alibaba Cloud sebelum mengirim konten sensitif. Seperti API cloud lain, asumsikan data bisa dicatat kecuali ada jaminan kontrak.



Top comments (0)