Walse

Posted on Mar 31 • Originally published at apidog.com

Qwen3.5-Omni Hadir: AI Multimodal Alibaba Kalahkan Gemini dalam Audio

TL;DR

Alibaba merilis Qwen3.5-Omni pada 30 Maret 2026. Model ini memproses teks, gambar, audio, dan video dalam satu model serta menghasilkan teks dan ucapan real-time. Qwen3.5-Omni mengungguli Gemini 3.1 Pro pada tolok ukur pemahaman dan penalaran audio, mendukung 113 bahasa untuk pengenalan ucapan, dan menyediakan kloning suara. Tersedia dalam tiga varian: Plus, Flash, dan Light.

Coba Apidog hari ini

Satu Model untuk Segala Modalitas

Sebagian besar workflow AI memerlukan beberapa model berbeda: satu untuk speech-to-text, satu untuk visi, satu untuk text generation, dan satu lagi untuk text-to-speech. Ini menambah latensi dan kompleksitas.

Qwen3.5-Omni menyederhanakan proses ini. Model ini menerima teks, gambar, audio, dan video sebagai input, mengembalikan teks atau ucapan dalam satu inferensi. Jendela konteksnya 256.000 token (cukup untuk >10 jam audio atau 400 detik video 720p dengan audio).

Alibaba melatih model ini dengan >100 juta jam data audio-visual asli, sehingga mampu menangani berbagai modalitas dan penalaran lintas modalitas secara simultan.

Jika Anda membuat aplikasi yang menggabungkan suara, video, gambar, dan teks, Anda kini bisa menangani semua itu lewat satu API.

Apa yang Berubah dari Qwen3-Omni

Generasi sebelumnya, Qwen3-Omni Flash, rilis Desember 2025 dengan latensi 234ms. Qwen3.5-Omni adalah iterasi selanjutnya.

Cakupan Bahasa Meningkat

Pengenalan ucapan kini mencakup 113 bahasa dan dialek (dari 19), pembuatan ucapan naik ke 36 bahasa (dari 10). Ini memungkinkan aplikasi global tanpa pipeline ASR terpisah.

Kloning Suara Terintegrasi

Anda dapat mengunggah sampel suara dan meminta model merespons dengan suara tersebut via API (Plus dan Flash). Cocok untuk persona suara yang konsisten dalam percakapan panjang.

Teknologi ARIA untuk TTS

ARIA, lapisan sinkronisasi TTS, mengatasi distorsi istilah teknis dan angka. Model membaca buffer teks untuk memastikan pengucapan benar pada istilah seperti "IPv6", "$249.99", dan "Qwen3.5-Omni".

Interupsi Semantik

Model membedakan antara backchannel ("uh-huh") dan interupsi nyata ("tunggu, berhenti") sehingga percakapan suara lebih natural.

Pencarian Web Real-Time

Model dapat melakukan query web langsung saat inferensi dan menggabungkan hasilnya ke respons, tanpa perlu prefetching manual.

Pengodean Vibe Audio-Visual

Rekaman layar bisa digunakan sebagai input. Berikan video ke model, dan minta menghasilkan/mengimprovisasi kode dari konteks visual. Input video => output kode.

Hasil Tolok Ukur

Qwen3.5-Omni unggul di 32 dari 36 tolok ukur audio & audio-visual
Menetapkan state-of-the-art baru di 22 tolok ukur
Mengungguli Gemini 3.1 Pro di pemahaman, penalaran, dan terjemahan audio
Setara dengan Gemini 3.1 Pro pada pemahaman audio-visual

Untuk kualitas TTS, Qwen3.5-Omni mengalahkan ElevenLabs, GPT-Audio, dan Minimax pada stabilitas suara multibahasa di 20 bahasa.

Varian Model

Alibaba merilis tiga varian:

Varian	Terbaik untuk
Qwen3.5-Omni Plus	Kualitas maksimum, penalaran audio-visual, kloning suara, konteks panjang
Qwen3.5-Omni Flash	Keseimbangan kecepatan & kualitas, obrolan suara real-time, API produksi
Qwen3.5-Omni Light	Latensi rendah, skenario seluler & edge

Ketiganya mendukung input teks, gambar, audio, video. Pilih Plus untuk tolok ukur, Flash untuk aplikasi produksi, Light untuk kebutuhan latensi rendah.

Jendela Konteks 256K Token

256K token =

Audio: >10 jam ucapan kontinu
Video: ~400 detik video 720p dengan audio
Teks: ~190.000 kata

Contoh kasus penggunaan: rekaman meeting 30 menit, video demo produk, atau panggilan CS panjang dapat dimasukkan dalam satu permintaan API.

Dibanding GPT-4o (128K) dan Gemini 2.5 Pro (1M), Qwen3.5-Omni menawarkan performa audio-visual unggul walau token lebih sedikit.

Pengenalan Ucapan 113 Bahasa

Peningkatan ke 113 bahasa sangat relevan untuk:

Dukungan pelanggan global: Satu model untuk semua bahasa tanpa pipeline ASR terpisah.
Pemrosesan konten multibahasa: Podcast/video non-Inggris bisa ditranskripsi, diterjemahkan, diringkas dalam satu permintaan.
Pergantian bahasa: Model menangani code-switching antar bahasa tanpa menurunkan akurasi.

Arsitektur: Thinker-Talker dengan MoE

Model menggunakan arsitektur Thinker-Talker:

Thinker: Memproses input multimodal, menghasilkan token penalaran.
Talker: Mengubah token jadi ucapan real-time via multi-codebook (latensi rendah).

Varian Plus mengadopsi Mixture of Experts (MoE), sehingga hanya sebagian parameter aktif per token. Ini membuat inferensi efisien.

Untuk deployment lokal, gunakan server inferensi vLLM (optimal untuk MoE). HuggingFace Transformers juga mendukung, tapi lebih lambat untuk MoE.

Apidog untuk Pengujian API Multimodal

Ketika menguji API Qwen3.5-Omni, Anda akan mengirim permintaan dengan JSON berisi audio base64, URL gambar, referensi video, dan teks.

Tanpa klien API yang tepat, debug jadi sulit. Apidog memungkinkan Anda:

Membuat & menyimpan template permintaan Qwen3.5-Omni
Mengatur variabel lingkungan untuk API key
Menulis pengujian otomatis untuk memverifikasi struktur/konten respons
Bandingkan Plus, Flash, dan Light secara berdampingan (latensi & output)

Unduh Apidog gratis untuk mulai menguji permintaan API multimodal.

Untuk Siapa Qwen3.5-Omni

Pertimbangkan Qwen3.5-Omni jika Anda membangun:

Asisten suara: Ucapan masuk/keluar real-time, memori percakapan, web retrieval, UX suara natural.
Alat analisis video: Ringkasan otomatis, transkripsi meeting, pembuatan tutorial dari rekaman layar.
Produk multibahasa: ASR 113-bahasa, TTS 36-bahasa, tanpa vendor terpisah.
Alat aksesibilitas: Pembuatan alt-teks gambar, deskripsi audio video, teks-tertutup real-time.
Alat produktivitas developer: Audio-Visual Vibe Coding, input rekaman layar jadi kode.

Cara Akses

Qwen3.5-Omni tersedia melalui:

Alibaba Cloud DashScope API (akses produksi)
qwen.ai (antarmuka web untuk pengujian)
HuggingFace Hub (bobot model untuk deployment lokal)
ModelScope (rekomendasi untuk Tiongkok)

Gunakan kunci API DashScope dan ikuti dokumentasi DashScope untuk endpoint dan harga.

Hal yang Perlu Diperhatikan

Performa benchmark tinggi, tapi lakukan pengujian langsung pada kasus penggunaan spesifik Anda (domain, aksen, format video).
Kloning suara tersedia via API, belum di web interface.
Deployment lokal varian Plus (30B MoE) butuh setidaknya 40GB VRAM. Flash dan Light lebih ringan.

FAQ

Apa perbedaan Qwen3.5-Omni dengan Qwen2.5-Omni?

Qwen2.5-Omni: model padat 7B/3B, 19 bahasa ucapan.

Qwen3.5-Omni: arsitektur MoE, 113 bahasa ucapan, kloning suara, ARIA, jendela konteks & benchmark jauh meningkat.

Bisakah saya menjalankan Qwen3.5-Omni secara lokal?

Bisa, via HuggingFace Transformers atau vLLM. Plus butuh VRAM 40GB+, Flash/Light bisa di GPU lebih kecil. vLLM direkomendasikan untuk produksi.

Apakah ada versi gratis?

Web interface qwen.ai gratis. API DashScope berbayar, harga per modalitas tersedia di dokumentasi.

Apakah mendukung streaming real-time?

Ya. Arsitektur Thinker-Talker memungkinkan audio streaming sehingga byte audio pertama muncul sebelum respons penuh selesai.

Apa beda Plus, Flash, dan Light?

Plus: Kualitas tertinggi, tugas akurasi tinggi.
Flash: Seimbang, cocok API produksi.
Light: Tercepat, untuk aplikasi latensi rendah/mobile/edge.

Bisakah saya menggunakan suara sendiri via API?

Bisa, lewat fitur kloning suara API. Upload sampel audio, model menggunakan suara tersebut untuk output. Belum tersedia di web.

Bagaimana perbandingannya dengan ElevenLabs untuk pembuatan suara?

Benchmark Alibaba: Qwen3.5-Omni Plus unggul dalam stabilitas suara multibahasa. ElevenLabs punya opsi penyesuaian lebih banyak. Jika butuh hanya suara, ElevenLabs layak diuji; untuk kebutuhan multimodal, Qwen3.5-Omni lebih tepat.

Apakah aman mengirim data audio/video sensitif via API?

Tinjau perjanjian data Alibaba Cloud sebelum mengirim konten sensitif. Seperti API cloud lain, asumsikan data bisa dicatat kecuali ada jaminan kontrak.

DEV Community