Sebastian Petrus

Posted on Mar 31 • Originally published at apidog.com

Qwen3.5-Omni Ra Mắt: AI Đa Phương Thức của Alibaba Vượt Mặt Gemini về Âm Thanh

Tóm tắt

Alibaba đã phát hành Qwen3.5-Omni vào ngày 30 tháng 3 năm 2026. Mô hình này xử lý văn bản, hình ảnh, âm thanh và video trong một mô hình duy nhất và xuất ra cả văn bản lẫn lời nói theo thời gian thực. Nó vượt trội hơn Gemini 3.1 Pro trong các điểm kiểm chuẩn hiểu và suy luận âm thanh tổng quát, hỗ trợ 113 ngôn ngữ cho nhận dạng giọng nói, và bao gồm tính năng nhân bản giọng nói. Ba biến thể có sẵn: Plus, Flash và Light.

Dùng thử Apidog ngay hôm nay

Một mô hình cho mọi thứ

Hiện nay, đa phần các quy trình AI phải ghép nối nhiều mô hình chuyên biệt: chuyển giọng nói thành văn bản, thị giác máy tính, tạo văn bản, chuyển văn bản thành giọng nói... Việc này làm tăng độ trễ và phức tạp tích hợp.

Qwen3.5-Omni giải quyết tất cả: Nhận đầu vào văn bản, hình ảnh, âm thanh, video và trả về văn bản hoặc giọng nói chỉ với một lần gọi API duy nhất. Cửa sổ ngữ cảnh 256.000 token – đủ cho hơn 10 giờ âm thanh hoặc 400 giây video 720p.

Đào tạo trên hơn 100 triệu giờ dữ liệu âm thanh-hình ảnh, Qwen3.5-Omni có khả năng suy luận đa phương thức thực sự.

Nếu bạn xây dựng ứng dụng AI liên quan tới giọng nói, video, hình ảnh, văn bản – Qwen3.5-Omni mở ra nhiều khả năng mới ở cấp API.

Có gì khác biệt so với Qwen3-Omni

Trước đó, Qwen3-Omni Flash ra mắt tháng 12/2025 với độ trễ 234ms. Qwen3.5-Omni là phiên bản đầy đủ tiếp theo, với các điểm nổi bật:

Phạm vi ngôn ngữ được mở rộng đáng kể

Nhận dạng giọng nói: từ 19 lên 113 ngôn ngữ/phương ngữ.
Tạo giọng nói: từ 10 lên 36 ngôn ngữ.
Đáp ứng tốt nhu cầu toàn cầu.

Nhân bản giọng nói tích hợp

Tải mẫu giọng nói, mô hình trả về phản hồi bằng giọng đó.
API hỗ trợ trên bản Plus & Flash.
Đảm bảo nhận dạng người nói xuyên suốt hội thoại dài.

Công nghệ ARIA loại bỏ méo tiếng

Cải thiện phát âm từ viết tắt, số liệu, tên riêng (ví dụ: "IPv6", "$249.99", "Qwen3.5-Omni").
Đọc trước bộ đệm, điều chỉnh tạo âm vị.

Ngắt lời ngữ nghĩa tự nhiên

Phân biệt xác nhận ("ừm") và ngắt lời thực sự ("đợi đã, dừng lại").
Trải nghiệm hội thoại thoại tự nhiên hơn.

Tìm kiếm web thời gian thực tích hợp

Mô hình tự động truy vấn web và tích hợp vào phản hồi.
Không cần chuẩn bị ngữ cảnh trước.

Mã hóa cảm nhận qua âm thanh-hình ảnh

Ghi lại màn hình, gửi video vào mô hình để tạo/cải thiện mã dựa trên ngữ cảnh hình ảnh.
Tương tự tính năng tạo mã từ hình ảnh/video như Cursor.

Kết quả kiểm chuẩn

36 điểm kiểm chuẩn âm thanh & âm thanh-hình ảnh:
- Dẫn đầu trên 32/36 điểm.
- Thiết lập trạng thái mới trên 22/36 điểm.
- Vượt Gemini 3.1 Pro về hiểu, suy luận, dịch âm thanh.
- Ngang bằng Gemini 3.1 Pro ở hiểu âm thanh-hình ảnh.
Tạo giọng nói: Qwen3.5-Omni vượt ElevenLabs, GPT-Audio, Minimax về độ ổn định đa ngôn ngữ (20 ngôn ngữ).

Các biến thể mô hình

Alibaba cung cấp 3 phiên bản:

Biến thể	Tốt nhất cho
Qwen3.5-Omni Plus	Chất lượng tối đa; suy luận âm thanh-hình ảnh, nhân bản giọng nói, các tác vụ ngữ cảnh dài
Qwen3.5-Omni Flash	Cân bằng tốc độ/chất lượng; thoại thời gian thực, API sản xuất
Qwen3.5-Omni Light	Độ trễ thấp; di động, biên

Cả ba hỗ trợ mọi đầu vào đa phương thức.
Khác biệt ở chất lượng, độ trễ, chi phí.
Plus = kiểm chuẩn tốt nhất. Flash = khuyến nghị cho sản xuất.

Cửa sổ ngữ cảnh 256K token

Ý nghĩa thực tế:

Âm thanh: >10 giờ nói liên tục.
Video: ~400 giây video 720p có âm thanh.
Văn bản: ~190.000 từ (dài tương đương một tiểu thuyết).

Hầu hết tác vụ đa phương thức không cần chia nhỏ dữ liệu đầu vào.

So sánh:

GPT-4o: 128K token
Gemini 2.5 Pro: 1M token
Qwen3.5-Omni nhỏ hơn Gemini nhưng vượt trội về kiểm chuẩn âm thanh-hình ảnh.

Nhận dạng giọng nói 113 ngôn ngữ

Ứng dụng thực tế:

Hỗ trợ khách hàng toàn cầu: Một mô hình nhận mọi tiếng nói (Thái, Bengali, Swahili, Phần Lan...).
Xử lý nội dung đa ngôn ngữ: Podcast, video, phỏng vấn dịch & tóm tắt tự động.
Chuyển đổi ngôn ngữ hội thoại: Hỗ trợ hội thoại song ngữ tự nhiên.

Kiến trúc: Thinker-Talker với MoE

Qwen3.5-Omni sử dụng kiến trúc Thinker-Talker:

Thinker: Xử lý đa phương thức, tạo token suy luận.
Talker: Chuyển token thành âm thanh thời gian thực bằng phương pháp multi-codebook.

Plus dùng Mixture of Experts (MoE): Chỉ một phần tham số kích hoạt mỗi token ⇒ nhanh, tiết kiệm bộ nhớ.
Đề xuất triển khai cục bộ: Sử dụng vLLM (hỗ trợ tốt MoE). HuggingFace Transformers hoạt động nhưng chậm hơn với MoE.

Vai trò của Apidog

Khi tích hợp API Qwen3.5-Omni, bạn sẽ cần gửi yêu cầu đa phương thức (JSON có base64 âm thanh, URL ảnh, video, văn bản...).

Apidog giúp:

Xây dựng/lưu mẫu request cho Qwen3.5-Omni.
Đặt biến môi trường cho API key.
Viết test tự động xác minh cấu trúc và nội dung phản hồi.
So sánh song song ba biến thể (Plus/Flash/Light) về độ trễ, chất lượng.

Bắt đầu miễn phí với Apidog để kiểm thử API đa phương thức.

Đối tượng sử dụng

Qwen3.5-Omni phù hợp nếu bạn xây dựng:

Trợ lý giọng nói: Đầu vào/ra giọng nói thời gian thực, ghi nhớ hội thoại, tìm kiếm web tích hợp.
Phân tích video: Tóm tắt, phiên âm, tạo hướng dẫn từ ghi màn hình. Cửa sổ ngữ cảnh lớn.
Sản phẩm đa ngôn ngữ: ASR 113 ngôn ngữ, TTS 36 ngôn ngữ, không cần nhiều nhà cung cấp.
Hỗ trợ tiếp cận: Tạo văn bản thay thế cho hình ảnh, mô tả âm thanh, phụ đề thời gian thực.
Công cụ dev productivity: Chuyển bản ghi màn hình thành mã hoạt động – đầu vào mới cho code assistant.

Truy cập

Bạn có thể dùng Qwen3.5-Omni qua các kênh sau:

Alibaba Cloud DashScope API (API sản xuất)
qwen.ai (giao diện web để test)
HuggingFace Hub (tải model triển khai cục bộ)
ModelScope (khuyến nghị cho người dùng Trung Quốc đại lục)

API xác thực theo chuẩn Alibaba Cloud (cần API key DashScope). Xem thêm tài liệu DashScope.

Những điều cần lưu ý

Hiệu suất kiểm chuẩn âm thanh rất mạnh – hãy kiểm thử với dữ liệu thực tế của bạn.
Nhân bản giọng nói hiện chỉ hỗ trợ qua API, chưa mở trên web qwen.ai.
Triển khai cục bộ Plus cần ≥40GB VRAM. Flash/Light dễ tiếp cận hơn.

Câu hỏi thường gặp

Qwen3.5-Omni khác gì Qwen2.5-Omni?

Qwen2.5-Omni: model dense 7B/3B, 19 ngôn ngữ ASR.
Qwen3.5-Omni: MoE, 113 ngôn ngữ ASR, nhân bản giọng nói, ARIA, kiểm chuẩn & ngữ cảnh lớn hơn.

Có thể chạy Qwen3.5-Omni cục bộ không?

Có, qua HuggingFace Transformers hoặc vLLM.
Plus ~40GB+ VRAM, Flash/Light chạy trên GPU nhỏ hơn.
vLLM tối ưu MoE tốt hơn cho production.

Có gói miễn phí không?

Web qwen.ai miễn phí.
API DashScope trả phí, giá theo từng phương thức (token âm thanh, khung video, token văn bản) – xem tài liệu DashScope.

Có hỗ trợ phát trực tuyến thời gian thực không?

Có. Thinker-Talker stream audio chunked, byte đầu tới ngay khi phản hồi chưa tạo xong.

Khác biệt giữa Plus, Flash, Light?

Plus: Chất lượng cao nhất, cho tác vụ cần độ chính xác.
Flash: Cân bằng tốc độ/chất lượng, khuyến nghị cho API sản xuất.
Light: Nhanh nhất, cho ứng dụng nhạy cảm về latency (mobile/edge).

Có thể dùng giọng nói của mình với API không?

Có, qua tính năng nhân bản giọng nói trên API (tải mẫu âm thanh, model xuất giọng nói). Chưa hỗ trợ trên web.

So sánh với ElevenLabs về tạo giọng nói?

Qwen3.5-Omni Plus vượt ElevenLabs về độ ổn định đa ngôn ngữ trên kiểm chuẩn Alibaba.
ElevenLabs mạnh về tùy chỉnh và lịch sử lâu năm.
Cần giọng nói → so sánh cả hai. Cần đa phương thức → Qwen3.5-Omni nổi bật.

An toàn khi gửi dữ liệu âm thanh/video nhạy cảm qua API không?

Xem kỹ thỏa thuận xử lý dữ liệu của Alibaba Cloud trước khi gửi nội dung nhạy cảm. Luôn giả định dữ liệu có thể được log trừ khi có cam kết ngược lại.

DEV Community