Emre Demir

Posted on Mar 31 • Originally published at apidog.com

Qwen3.5-Omni: Alibaba KI schlägt Gemini bei Audio

TL;DR

Alibaba veröffentlichte Qwen3.5-Omni am 30. März 2026. Es verarbeitet Text, Bilder, Audio und Video in einem einzigen Modell und gibt sowohl Text als auch Echtzeit-Sprache aus. Es übertrifft Gemini 3.1 Pro bei Benchmarks zum allgemeinen Audio-Verständnis und zur Argumentation, unterstützt 113 Sprachen für die Spracherkennung und beinhaltet Stimmklonung. Drei Varianten sind verfügbar: Plus, Flash und Light.

Teste Apidog noch heute

Ein Modell für alles

Klassische KI-Workflows setzen verschiedene spezialisierte Modelle für Spracherkennung, Bildverarbeitung, Textgenerierung und Text-zu-Sprache ein. Jeder Schritt erhöht Latenz, Kosten und Fehlerpotenzial.

Qwen3.5-Omni vereint diese Funktionen. Das Modell akzeptiert Text, Bilder, Audio und Video als Eingabe und gibt Text oder Sprache aus – alles innerhalb eines einzigen Modellaufrufs. Das Kontextfenster umfasst 256.000 Tokens (über 10 Stunden Audio oder ca. 400 Sekunden 720p-Video mit Audio).

Training erfolgte mit über 100 Millionen Stunden audiovisueller Daten, sodass das Modell mehrere Modalitäten gleichzeitig verarbeiten und kombinieren kann.

Für Entwickler, die Apps mit Sprache, Video, Bildern und Text bauen, eröffnet sich hiermit eine neue technische Basis auf API-Level.

Was sich gegenüber Qwen3-Omni geändert hat

Qwen3.5-Omni ist die Weiterentwicklung von Qwen3-Omni Flash (Dezember 2025, 234 ms Latenz). Die wichtigsten Neuerungen:

Sprachabdeckung erheblich erweitert

Spracherkennung: von 19 auf 113 Sprachen/Dialekte erweitert.
Sprachausgabe: von 10 auf 36 Sprachen.
Damit ist das Modell global einsetzbar und nicht mehr auf westliche Märkte beschränkt.

Stimmklonung integriert

Sie können eine Sprachprobe hochladen, das Modell antwortet in exakt dieser Stimme.
Über die API verfügbar in Plus und Flash.
Die Stimmklonung bleibt auch über längere Konversationen konsistent.

ARIA-Technologie eliminiert Audioverzerrungen

Mit ARIA können Zahlen und Fachbegriffe korrekt ausgesprochen werden.
Beispiel: „IPv6“, „$249.99“ und „Qwen3.5-Omni“ werden fehlerfrei wiedergegeben, da die Phonem-Generierung dynamisch angepasst wird.

Semantische Unterbrechung

Das Modell unterscheidet Rückkanäle („aha“) und echte Unterbrechungen („warte, stopp“).
Sprachunterhaltungen laufen dadurch natürlicher ab.

Echtzeit-Websuche integriert

Das Modell kann während der Inferenz Web-Inhalte abfragen.
Kein Vorab-Prompting nötig; Kontext wird bei Bedarf eigenständig abgerufen.

Audiovisuelles Vibe-Coding

Bildschirmaufnahmen (Video) können als Coding-Eingabe dienen.
Das Modell analysiert das Video und generiert daraus funktionierenden Code.

Benchmark-Ergebnisse

Qwen3.5-Omni erreicht bei 32 von 36 Audio- und audiovisuellen Benchmarks den Stand der Technik.
Setzt bei 22 Benchmarks neue Bestwerte.
Übertrifft Gemini 3.1 Pro in Audio-Verständnis, Argumentation und Übersetzung.
Erreicht das Niveau von Gemini 3.1 Pro im audiovisuellen Verständnis.
In der Sprachgenerierungsqualität schlägt es ElevenLabs, GPT-Audio und Minimax bei der mehrsprachigen Stimmstabilität (20+ Sprachen).

Modellvarianten

Alibaba liefert drei Versionen:

Variante	Am besten geeignet für
Qwen3.5-Omni Plus	Maximale Qualität, audiovisuelle Argumentation, Stimmklonung, langer Kontext
Qwen3.5-Omni Flash	Ausgewogene Geschwindigkeit/Qualität, Echtzeit-Sprachchat, Produktions-APIs
Qwen3.5-Omni Light	Geringe Latenz, mobile und Edge-Szenarien

Alle Varianten verarbeiten Text, Bilder, Audio und Video. Unterschiede bestehen in Ausgabequalität, Latenz und Kosten. Für Produktionsstart meist Flash, für maximale Qualität Plus.

Das 256K Token Kontextfenster

Was bedeutet das in der Praxis?

Audio: Über 10 Stunden Sprache
Video: Ca. 400 Sekunden 720p-Video mit Audio
Text: Rund 190.000 Wörter (romanlange Dokumente)

Damit lassen sich umfangreiche Inputs (z.B. 30-min Besprechung, komplette Produktdemo, lange Support-Calls) in einer einzigen Anfrage verarbeiten.

Vergleich: GPT-4o (128K Kontext), Gemini 2.5 Pro (1M Kontext). Qwen3.5-Omni hat zwar weniger Kontext als Gemini, ist aber bei audiovisuellen Benchmarks stärker.

113-Sprachen-Spracherkennung

Der Sprung von 19 auf 113 Sprachen erschließt neue Anwendungsfälle:

Kundensupport: Ein Modell deckt Thai, Bengali, Swahili, Finnisch etc. ohne separate ASR-Pipeline ab.
Mehrsprachige Inhalte: Transkription, Übersetzung und Zusammenfassung von Podcasts/Videos in einem Schritt.
Sprachwechsel: Modell unterstützt dynamisches Code-Switching im Gespräch, z.B. Englisch/Spanisch-Mix.

Architektur: Thinker-Talker mit MoE

Das Modell verwendet die Thinker-Talker-Architektur:

Thinker: Verarbeitet multimodale Eingaben, erzeugt Argumentationstokens.
Talker: Wandelt Tokens in Echtzeit in Sprache um (Multi-Codebook Ansatz, minimale Latenz).

MoE (Mixture of Experts): Plus-Variante aktiviert pro Token nur eine Teilmenge der Modellparameter, was Inferenz schnell und speichereffizient macht.
Lokale Bereitstellung: vLLM empfohlen (optimiert für MoE-Modelle), HuggingFace Transformers funktioniert, ist aber langsamer bei MoE.

Wo Apidog ins Spiel kommt

Für die Nutzung der Qwen3.5-Omni API müssen Sie komplexe, multimodale Anfragen senden (JSON mit base64-Audio, Bild-URLs, Video-Referenzen, Text).

Mit Apidog können Sie:

Anfragevorlagen für Qwen3.5-Omni erstellen und speichern
API-Schlüssel als Umgebungsvariablen verwalten
Automatisierte Tests für Struktur und Inhalt der Response schreiben
Direkt Latenz und Ausgabequalität zwischen Plus, Flash und Light vergleichen

Laden Sie Apidog kostenlos herunter, um multimodale API-Anfragen effizient zu testen.

Für wen dies ist

Qwen3.5-Omni ist relevant, wenn Sie:

Sprachassistenten: Echtzeit-Ein-/Ausgabe, Konversationsgedächtnis, Web-Abruf, semantische Unterbrechung und ARIA für bessere UX.
Videoanalysetools: Automatisierte Zusammenfassungen, Transkripte, Tutorial-Generierung aus Bildschirmaufnahmen; 256K Kontext erlaubt lange Medien.
Mehrsprachige Produkte: 113-Sprachen-ASR und 36-Sprachen-TTS direkt im Modell, keine separaten Anbieter nötig.
Barrierefreiheit: Alternativtext für Bilder, Audiobeschreibungen, Live-Untertitel, Unterstützung für unterversorgte Sprachen.
Entwicklerproduktivität: Videobasiertes Vibe-Coding, das Screenrecordings in Code verwandelt.

Zugang

Qwen3.5-Omni ist verfügbar über:

Alibaba Cloud DashScope API (Zugang zur Produktions-API)
qwen.ai (Web-Interface zum Testen)
HuggingFace Hub (Modellgewichte für lokale Nutzung)
ModelScope (empfohlen für Nutzer in China)

API-Zugang erfordert einen DashScope API-Schlüssel. Details zu Endpunkten und Preisen in der DashScope-Dokumentation.

Worauf zu achten ist

Benchmark-Ergebnisse sind Indikatoren, aber testen Sie Ihr eigenes Daten- und Anwendungsprofil direkt.
Stimmklonung aktuell nur via API, nicht im Web-Interface.
Lokaler Betrieb benötigt viel VRAM: Plus-Variante > 40GB, Flash/Light weniger.
Prüfen Sie Compliance, bevor Sie sensible Daten über die API senden.

FAQ

Wie unterscheidet sich Qwen3.5-Omni von Qwen2.5-Omni?

Qwen2.5-Omni: Dichte Modelle (7B, 3B), 19 Sprachen für ASR.

Qwen3.5-Omni: MoE-Architektur, 113 Sprachen, Stimmklonung, ARIA, verbessertes Kontextfenster und Benchmarks.

Kann ich Qwen3.5-Omni lokal ausführen?

Ja, via HuggingFace Transformers oder vLLM. Plus benötigt >40GB VRAM. Flash/Light laufen auf kleineren GPUs. Für Produktion ist vLLM empfohlen.

Gibt es eine kostenlose Stufe (Free Tier)?

qwen.ai Web-Interface ist kostenlos. API-Zugang via DashScope ist kostenpflichtig (Preise pro Modalität siehe DashScope-Doku).

Unterstützt es Echtzeit-Streaming?

Ja, Thinker-Talker-Architektur gibt Audio gestreamt/chunked aus, erste Bytes kommen, bevor die komplette Antwort fertig ist.

Unterschied zwischen Plus, Flash und Light?

Plus: Maximale Qualität, für hochwertige Aufgaben
Flash: Ausgewogen, Standard für Produktions-APIs
Light: Maximale Geschwindigkeit, geeignet für mobile/Edge-Anwendungen

Kann ich meine eigene Stimme mit der API verwenden?

Ja, über Stimmklonung auf der API (Audioaufnahme hochladen, Modell verwendet Stimme für Ausgabe). Noch nicht im Web-Interface.

Wie schneidet es bei Sprachgenerierung vs. ElevenLabs ab?

Qwen3.5-Omni Plus übertrifft ElevenLabs bei mehrsprachiger Stimmstabilität (laut Alibaba-Benchmarks). ElevenLabs bietet mehr Optionen zur Stimm-Anpassung, eignet sich bei reinen Sprachprojekten aber weiterhin zum Vergleich.

Ist es sicher, sensible Audio- oder Videodaten über die API zu senden?

Prüfen Sie die Datenverarbeitungsvereinbarung von Alibaba Cloud. Wie bei jeder Cloud-API könnten Daten protokolliert werden, sofern nicht anders garantiert.

DEV Community