Akira

Posted on Mar 31 • Originally published at apidog.com

Qwen3.5-Omni登場：アリババの全能AI、音声認識でGeminiを凌駕

要約

アリババは2026年3月30日、Qwen3.5-Omniをリリースしました。このモデルは、テキスト、画像、音声、動画を単一のモデルで処理し、テキストとリアルタイム音声の両方を出力します。一般的な音声理解および推論ベンチマークでGemini 3.1 Proを上回り、音声認識で113言語に対応し、音声クローニング機能も含まれています。Plus、Flash、Lightの3つのバリアントが利用可能です。

Apidogを今すぐ試す

すべてを一つでこなすモデル

従来のAIワークフローは、音声認識、視覚処理、テキスト生成、TTSなど用途別にモデルを組み合わせていました。しかし、それぞれの連携はレイテンシーやコスト増、トラブルの原因となります。

Qwen3.5-Omniはこれを単一モデルで解決します。テキスト、画像、音声、動画を一度に入力し、単一の推論でテキストまたは音声出力が可能です。コンテキストウィンドウは256,000トークン（10時間超の音声、400秒の720p動画相当）を保持できます。

1億時間以上のネイティブ視聴覚データで学習されており、複数モダリティを同時推論可能な設計です。音声、動画、画像、テキストが混在するアプリケーション開発では、APIレベルでの設計が大きく変わります。

Qwen3-Omniからの変更点

以前のQwen3-Omni Flash（2025年12月リリース、234msレイテンシー）から、Qwen3.5-Omniは以下の点で進化しています。

言語対応が大幅に拡大

音声認識：19言語 → 113言語・方言に対応
音声生成：10言語 → 36言語に対応

欧米市場モデルとグローバル対応モデルの差を埋める進化です。

音声クローニングが内蔵

音声サンプルをアップロードするだけで、その声で応答
Plus/FlashバリアントはAPI経由で音声クローニング可能
長時間会話でも一貫した声の再現

ARIA技術による音声歪み解消

数字や固有名詞等の従来歪みやすい単語も正しく発音
動的なテキスト・音声同期レイヤー「ARIA」が先読みで音素生成を最適化

意味的な中断の自然な制御

相槌と中断を区別可能
「うんうん」などは継続、「止めて」などは停止、といった自然な応答

リアルタイムWeb検索が統合

推論中に自動でWeb検索を実行し、最新情報を応答に反映
プロンプト側の事前取得不要

視聴覚Vibeコーディング

スクリーン録画動画を入力し、内容をもとにコード生成・改善が可能
動画→動作するコード生成のマルチモーダル機能

ベンチマーク結果

36の音声・視聴覚ベンチマーク中32でSOTA（最先端）達成
22で新SOTA樹立
Gemini 3.1 Proを音声理解・推論・翻訳で上回る
視聴覚理解はGemini 3.1 Proと同等

特に多言語音声生成の品質は、ElevenLabs・GPT-Audio・Minimaxを上回っています。

モデルバリアント

アリババは3つのバリアントを提供しています：

バリアント	最適な用途
Qwen3.5-Omni Plus	最高品質；視聴覚推論、音声クローニング、長文コンテキストタスク
Qwen3.5-Omni Flash	スピードと品質のバランス；リアルタイム音声チャット、プロダクションAPI
Qwen3.5-Omni Light	低レイテンシーのタスク；モバイル・エッジシナリオ

3種とも全ての入力モダリティ（テキスト・画像・音声・動画）に対応。違いは主に出力品質、レイテンシー、コストです。Plusがベンチマークリーダー、Flashはプロダクション用途に最適です。

256Kトークンのコンテキストウィンドウ

音声: 10時間超の連続音声
動画: 約400秒の720p動画（音声付き）
テキスト: 約190,000語（小説1冊分）

多くのマルチモーダル用途でチャンク分割不要。30分の会議録画や長時間のサポート通話も1リクエストで処理可能です。

GPT-4o(128K)、Gemini 2.5 Pro(1M)との比較では、Qwen3.5-OmniはGeminiより小さいですが、実用ベンチマークで高い視聴覚性能を発揮します。

113言語の音声認識

19→113言語対応は以下のような用途に直結します。

グローバルなカスタマーサポート：1モデルで多言語音声入力対応
多言語コンテンツ処理：ポッドキャスト・動画・インタビューの書き起こし/翻訳/要約を1回で実行
会話中の言語切り替え：バイリンガル話者の発話もネイティブに処理（例：英語⇔スペイン語のスイッチ）

アーキテクチャ：MoE採用のThinker-Talker

Thinker-Talkerアーキテクチャを採用し、Thinkerがマルチモーダル入力を処理して推論トークン生成、Talkerがマルチコードブック方式でリアルタイム音声化します。

PlusバリアントはMixture of Experts（MoE）構成で、トークンごとに一部パラメータのみ活性化。高品質でも推論が高速・メモリ効率的です。

ローカル展開にはvLLMが推奨。HuggingFace Transformersも利用可能ですがMoEではパフォーマンス低下します。

Apidogの活用法

Qwen3.5-OmniのAPIを活用する際、マルチモーダルリクエスト（base64音声/画像URL/動画参照/テキスト混在JSON）を送信します。

これらのリクエストを効率的にデバッグしたい場合、Apidogが最適です。

Qwen3.5-Omni用リクエストテンプレートの作成・保存
APIキーや環境変数の設定
応答構造の自動テストによるバリデーション
Plus/Flash/Lightを同一リクエストで比較・検証

マルチモーダルAPIリクエストのテスト・検証を圧倒的に効率化できます。

こんな方におすすめ

Qwen3.5-Omniは、以下のような開発に最適です。

音声アシスタント：会話履歴・ウェブ検索・意味的中断・ARIA対応UX
動画分析ツール：自動要約・議事録化・スクリーン録画→チュートリアル生成
多言語プロダクト：1モデルで113言語ASR・36言語TTS
アクセシビリティ：画像ALT生成・動画音声解説・リアルタイムキャプション
開発者生産性ツール：視聴覚Vibeコーディング（動画→コード生成）

アクセス方法

Qwen3.5-Omniは以下で利用可能です。

Alibaba Cloud DashScope API（プロダクションAPI）
qwen.ai（テスト用Web UI）
HuggingFace Hub（ローカル展開用モデルウェイト）
ModelScope（中国本土ユーザー向け）

API利用にはAlibaba Cloudの認証が必要です。エンドポイントや料金詳細はDashScopeのドキュメントを参照してください。

注意すべき点

ベンチマーク性能が必ずしもあなたのドメインで再現されるとは限らないため、実データでのテスト推奨
音声クローニングはAPI専用。Web UIには未実装
ローカル運用はGPUメモリ要件高め（Plusは最低40GB VRAM、Flash/Lightはより小規模GPU可）

よくある質問

Qwen3.5-OmniはQwen2.5-Omniとどう違う？

Qwen2.5-Omniは19言語ASRの7B/3B密集型モデル。Qwen3.5-OmniはMoE化し、113言語ASR・音声クローニング・ARIA追加、ベンチマークやコンテキストウィンドウも強化。

ローカルで実行できる？

HuggingFace TransformersまたはvLLMで実行可。Plusは40GB超VRAM要件あり。Flash/Lightは小型GPU対応。MoE最適化のため、プロダクションのローカル展開はvLLM推奨。

無料枠はある？

qwen.aiのWeb UIは無料。DashScope APIは有料。詳細はDashScopeの料金ページ参照。

リアルタイムストリーミングは可能？

はい、Thinker-Talkerアーキテクチャでストリーミング出力に対応。応答生成完了前に音声が流れ始め、ライブ会話が可能。

Plus、Flash、Lightの違いは？

Plus：最高品質・精度重視
Flash：スピードと品質のバランス
Light：最速・レイテンシー重視（モバイルやエッジ向け）

APIで自分の声を使える？

はい。API経由の音声クローニングで、アップロードした音声サンプルを再現できます。Web UIは未対応。

ElevenLabsとの比較は？

アリババのベンチマークでは、多言語音声安定性でQwen3.5-Omni PlusがElevenLabsを上回る。カスタマイズや音声専用用途はElevenLabsも選択肢です。マルチモーダル統合モデルが必要な場合はQwen3.5-Omniが有力。

機密性の高い音声や動画をAPI経由で送信しても安全？

送信前にAlibaba Cloudのデータ処理契約を確認してください。一般的なクラウドAPI同様、明示的な保証がない限りデータがログに残る可能性を考慮しましょう。

DEV Community