Antoine Laurent

Posted on Mar 31 • Originally published at apidog.com

Qwen3.5-Omni est arrivé : L'IA omnimodale d'Alibaba surpasse Gemini en audio

En bref

Alibaba a lancé Qwen3.5-Omni le 30 mars 2026. Ce modèle traite texte, images, audio et vidéo dans un seul pipeline et génère du texte ou de la parole en temps réel. Il dépasse Gemini 3.1 Pro sur les benchmarks de compréhension et de raisonnement audio, supporte 113 langues pour la reconnaissance vocale et intègre le clonage de voix. Trois variantes sont disponibles : Plus, Flash et Light.

Essayez Apidog dès aujourd'hui

Un modèle pour tout

Aujourd'hui, la plupart des workflows IA nécessitent d'assembler plusieurs modèles : un pour la reconnaissance vocale, un pour la vision, un pour le texte, un pour la synthèse vocale. Cela ajoute de la latence, des coûts et des points de défaillance.

Qwen3.5-Omni fusionne toute cette pile. Il accepte texte, images, audio et vidéo en entrée et génère texte ou parole via un seul appel d'inférence. Sa fenêtre de contexte atteint 256 000 tokens – soit plus de 10h d'audio ou 400 secondes de vidéo 720p avec audio.

Entraîné sur plus de 100 millions d'heures de données audiovisuelles, le modèle traite plusieurs modalités simultanément, ce qui permet de nouveaux usages côté API.

Ce qui a changé depuis Qwen3-Omni

La version précédente, Qwen3-Omni Flash, datait de décembre 2025 (latence : 234 ms). Qwen3.5-Omni est la nouvelle version majeure avec plusieurs améliorations :

Couverture linguistique élargie

La reconnaissance vocale passe de 19 à 113 langues et dialectes. La génération de parole passe de 10 à 36 langues. Cela permet un usage mondial, au-delà des marchés occidentaux.

Clonage de voix intégré

Téléchargez un échantillon vocal : le modèle peut répondre avec cette voix. Disponible via l’API pour les variantes Plus et Flash, le clonage permet de maintenir une persona vocale sur de longues conversations.

Technologie ARIA : suppression de la distorsion audio

Les modèles TTS standard déforment souvent les chiffres, noms propres et termes techniques. ARIA, la couche texte-parole dynamique de Qwen, lit à l’avance le texte pour générer correctement la prononciation, par exemple pour "IPv6", "249,99 $" ou "Qwen3.5-Omni".

Interruption sémantique naturelle

Lors d’une conversation vocale, Qwen3.5-Omni distingue les acquiescements ("uh-huh") des interruptions réelles ("attendez, arrêtez"), rendant l’échange plus fluide et naturel.

Recherche web en temps réel

Le modèle peut interroger le web pendant l’inférence et intégrer les résultats en direct dans sa réponse, sans prétraitement du contexte dans l’invite.

Codage d’ambiance audiovisuel

Enregistrez votre écran, transmettez la vidéo au modèle, il génère ou améliore le code vu à l’écran. C’est la génération de code contextuelle à partir de vidéos, pour automatiser des workflows à partir d’enregistrements.

Résultats des benchmarks

Sur 36 benchmarks audio et audiovisuels :

Qwen3.5-Omni atteint l’état de l’art sur 32/36
Il établit un nouveau record sur 22/36
Il dépasse Gemini 3.1 Pro en compréhension audio, raisonnement et traduction
Il égale Gemini 3.1 Pro en compréhension audiovisuelle

Pour la génération de parole, il surpasse ElevenLabs, GPT-Audio et Minimax en stabilité vocale multilingue sur 20 langues.

Variantes du modèle

Alibaba propose trois variantes :

Variante	Idéale pour
Qwen3.5-Omni Plus	Qualité maximale : raisonnement audiovisuel, clonage de voix, contexte long
Qwen3.5-Omni Flash	Équilibre vitesse/qualité : chat vocal temps réel, API de production
Qwen3.5-Omni Light	Faible latence : mobile, edge, tâches rapides

Les trois gèrent texte, images, audio et vidéo. Les différences portent sur la qualité, la latence et le coût. Pour démarrer en production, testez d’abord Flash.

Fenêtre de contexte 256K tokens

256K tokens = plafond d’entrée :

Audio : >10h de parole continue
Vidéo : ~400 secondes de vidéo 720p avec audio
Texte : ~190 000 mots (roman complet)

Pour la plupart des usages, découper vos inputs n’est plus nécessaire. Réunions longues, démos produits, appels support : tout passe dans une requête unique.

À comparer aux 128K de GPT-4o ou 1M de Gemini 2.5 Pro. Qwen3.5-Omni a une fenêtre plus petite que Gemini mais se rattrape sur l’audiovisuel.

Reconnaissance vocale en 113 langues

Ce support massif de langues change la donne pour :

Support client mondial : un seul modèle pour traiter la voix (thaï, bengali, swahili, finnois, etc.), sans pipeline ASR séparé.
Traitement de contenu multilingue : podcasts, vidéos, interviews en langues variées peuvent être transcrits, traduits et résumés en une seule requête.
Changement de langue à la volée : le modèle gère le code-switching nativement, sans perte de précision.

Architecture : Penseur-Parleur avec MoE

Qwen3.5-Omni utilise une architecture "Penseur-Parleur" :

Penseur : traite les entrées multimodales, génère les tokens de raisonnement
Parleur : convertit ces tokens en parole naturelle, en temps réel, via une approche multi-dictionnaire pour minimiser la latence

La version Plus utilise la Mixture of Experts (MoE) : seuls certains sous-modèles sont activés par token, ce qui accélère l’inférence et réduit l’usage mémoire.

Pour déployer localement, utilisez vLLM (recommandé pour MoE), HuggingFace Transformers fonctionne aussi mais est plus lent sur ce type d’architecture.

Où Apidog s’intègre-t-il

Pour tester et développer avec l’API Qwen3.5-Omni, vous devez envoyer des requêtes multimodales : JSON avec audio en base64, URL d’images, références vidéo, texte.

Apidog permet de :

Construire et enregistrer vos modèles de requête pour Qwen3.5-Omni
Définir des variables d’environnement pour vos clés API
Écrire des tests automatisés pour vérifier structure et contenu des réponses
Comparer facilement les trois variantes (Plus, Flash, Light) sur latence et qualité de sortie

Téléchargez Apidog gratuitement pour démarrer vos tests de requêtes API multimodales.

À qui cela s'adresse-t-il

Qwen3.5-Omni est pertinent si vous développez :

Assistants vocaux : parole en entrée/sortie, mémoire conversationnelle, récupération web, gestion naturelle des interruptions
Outils d’analyse vidéo : résumé automatisé, transcription de réunions, tutoriel à partir d’enregistrements d’écran, sans découpage grâce à la fenêtre 256K
Produits multilingues : ASR en 113 langues, TTS en 36 langues, un seul modèle pour tout
Outils d’accessibilité : génération de texte alternatif pour images, descriptions audio pour vidéos, sous-titres multilingues en temps réel
Outils de productivité dev : génération de code à partir d’enregistrements d’écran (audio-visual vibe coding)

Accès

Qwen3.5-Omni est accessible via :

Alibaba Cloud DashScope API (API de production)
qwen.ai (interface web pour tests)
HuggingFace Hub (poids du modèle pour déploiement local)
ModelScope (utilisateurs en Chine continentale)

L’API utilise l’authentification standard Alibaba Cloud. Obtenez une clé API DashScope. Consultez la documentation DashScope pour les détails et la tarification par modalité.

À surveiller

Testez le modèle directement pour vérifier que les gains de benchmark s’appliquent à votre cas d’usage : vocabulaire spécifique, accents, formats vidéo particuliers.

Le clonage de voix n’est disponible que via API, pas encore sur l’interface web qwen.ai.

Le déploiement local nécessite une mémoire GPU conséquente : la variante Plus (30B MoE) requiert au moins 40 Go de VRAM. Flash et Light sont plus accessibles.

FAQ

En quoi Qwen3.5-Omni est-il différent de Qwen2.5-Omni ?

Qwen2.5-Omni utilisait des modèles denses (7B, 3B), supportait 19 langues de parole. Qwen3.5-Omni passe à l’architecture MoE, étend la reconnaissance à 113 langues, ajoute le clonage de voix et ARIA. Benchmarks et fenêtre de contexte sont largement améliorés.

Puis-je exécuter Qwen3.5-Omni localement ?

Oui, via HuggingFace Transformers ou vLLM. La variante Plus requiert >40 Go de VRAM. Flash et Light tournent sur des GPU plus petits. vLLM est recommandé en production pour l’optimisation MoE.

Existe-t-il un niveau gratuit ?

L’interface web qwen.ai est gratuite. L’accès API via DashScope est payant ; consultez la documentation pour les prix par modalité (audio, image, vidéo, texte).

Prend-il en charge le streaming en temps réel ?

Oui. L’architecture Penseur-Parleur permet de recevoir l’audio en streaming, pour une expérience vocale naturelle.

Quelle est la différence entre Plus, Flash et Light ?

Plus : meilleure qualité, pour tâches exigeantes. Flash : équilibre vitesse/qualité, recommandé pour l’API de production. Light : latence minimale, idéal pour mobile et edge.

Puis-je utiliser ma propre voix avec l’API ?

Oui, en envoyant un échantillon audio via l’API (clonage de voix). Pas encore disponible sur l’interface web.

Comment se compare-t-il à ElevenLabs pour la génération de voix ?

Sur les benchmarks Alibaba, Qwen3.5-Omni Plus dépasse ElevenLabs sur la stabilité vocale multilingue ; ElevenLabs offre plus d’options de personnalisation. Pour de la voix seule, comparez les deux. Pour une approche multimodale, Qwen3.5-Omni est le choix le plus intégré.

Est-il sûr d’envoyer des données audio/vidéo sensibles via l’API ?

Vérifiez l’accord de traitement des données Alibaba Cloud avant d’envoyer des données sensibles. Par défaut, supposez que vos données peuvent être stockées sauf mention contraire explicite.

DEV Community

Qwen3.5-Omni est arrivé : L'IA omnimodale d'Alibaba surpasse Gemini en audio

En bref

Un modèle pour tout