TL;DR
A Alibaba lançou o Qwen3.5-Omni em 30 de março de 2026. Ele processa texto, imagens, áudio e vídeo em um único modelo, gerando texto e fala em tempo real. Supera o Gemini 3.1 Pro em benchmarks de compreensão e raciocínio de áudio, suporta 113 idiomas para reconhecimento de fala e inclui clonagem de voz. Disponível nas variantes Plus, Flash e Light.
Um modelo para tudo
Hoje, fluxos de IA geralmente unem modelos separados para fala-para-texto, visão, geração de texto e texto-para-fala. Essa abordagem aumenta latência, custo e riscos de falha.
O Qwen3.5-Omni unifica tudo: recebe texto, imagens, áudio ou vídeo e retorna texto ou fala em uma única chamada de inferência. Com uma janela de contexto de 256.000 tokens, você processa mais de 10 horas de áudio ou 400 segundos de vídeo 720p com áudio.
Treinado com mais de 100 milhões de horas de dados audiovisuais, o modelo raciocina sobre múltiplas modalidades ao mesmo tempo. Se você desenvolve apps que combinam voz, vídeo, imagens e texto, a API redefine o que é possível.
O que mudou do Qwen3-Omni
A geração anterior, Qwen3-Omni Flash, saiu em dezembro de 2025 com latência de 234ms. O Qwen3.5-Omni é o upgrade completo. Principais mudanças:
Cobertura de idiomas expandida
O reconhecimento de fala saltou de 19 para 113 idiomas/dialetos. Geração de fala aumentou de 10 para 36 idiomas. Isso permite uso global, sem dependências regionais.
Clonagem de voz integrada
Agora é possível enviar uma amostra de voz e receber respostas na mesma voz. Disponível via API nas variantes Plus e Flash, mantendo a identidade do falante em diálogos longos.
Tecnologia ARIA elimina distorção de áudio
A camada ARIA otimiza a pronúncia de números, nomes de produtos e termos técnicos em TTS, lendo e ajustando fonemas antes de emitir o áudio. Exemplo: "IPv6" e "Qwen3.5-Omni" são pronunciados corretamente.
Interrupção semântica natural
O modelo diferencia backchannels ("uh-huh") de comandos reais de parada ("pare"), tornando conversas de voz mais naturais e próximas do comportamento humano.
Pesquisa web em tempo real
Qwen3.5-Omni pode consultar a web durante a inferência e incorporar resultados ao vivo automaticamente na resposta.
Codificação por Contexto Audiovisual
Agora é possível enviar gravações de tela como entrada. O modelo interpreta o vídeo e pode gerar código funcional a partir desse contexto visual.
Resultados de Benchmark
Em 36 benchmarks de áudio e audiovisual:
- Qwen3.5-Omni é o melhor em 32 de 36
- Estabelece novo recorde em 22 de 36
- Supera o Gemini 3.1 Pro em compreensão de áudio, raciocínio e tradução
- Empata com Gemini 3.1 Pro em compreensão audiovisual
Em geração de fala, supera ElevenLabs, GPT-Audio e Minimax em estabilidade multilíngue em 20 idiomas.
Variantes do modelo
A Alibaba oferece três versões:
| Variante | Melhor para |
|---|---|
| Qwen3.5-Omni Plus | Máxima qualidade; raciocínio audiovisual, clonagem de voz, contexto longo |
| Qwen3.5-Omni Flash | Equilíbrio entre velocidade e qualidade; chat de voz, APIs de produção |
| Qwen3.5-Omni Light | Baixa latência; cenários móveis e de edge |
Todos aceitam texto, imagens, áudio e vídeo como entrada. As diferenças estão em qualidade, latência e custo. Para a maioria dos apps, comece com o Flash.
A janela de contexto de 256 mil tokens
O limite de entrada permite:
- Áudio: +10 horas de fala contínua
- Vídeo: ~400 segundos de vídeo 720p com áudio
- Texto: ~190.000 palavras (um romance inteiro)
Isso elimina a necessidade de segmentar a entrada na maioria dos casos: reuniões de 30 minutos, vídeos de demonstração, chamadas longas de suporte, tudo cabe em uma só requisição.
Comparando: GPT-4o aceita 128 mil tokens; Gemini 2.5 Pro aceita 1 milhão (mas Qwen3.5-Omni compensa em desempenho multimodal).
Reconhecimento de fala em 113 idiomas
O salto de 19 para 113 idiomas é crucial para:
- Suporte ao cliente global: aceite vozes em tailandês, bengali, suaíli, finlandês, etc., sem pipeline ASR separado.
- Processamento multilíngue: transcreva, traduza e resuma conteúdo em uma chamada.
- Troca de idioma na conversa: bilíngues alternam idiomas e o modelo lida sem perder precisão.
Arquitetura: Thinker-Talker com MoE
O modelo utiliza arquitetura Thinker-Talker:
- Thinker: processa entrada multimodal e gera tokens de raciocínio
- Talker: converte tokens em fala natural, com baixa latência via multi-codebook
Na variante Plus, usa MoE (Mixture of Experts), ativando apenas parte dos parâmetros por token — mais rápido e eficiente que modelos densos.
Para rodar localmente, utilize o vLLM para melhor performance MoE. HuggingFace Transformers funciona, mas é mais lento em MoE.
Onde o Apidog se encaixa
Para testar a API do Qwen3.5-Omni, você vai enviar corpos JSON com áudio em base64, URLs de imagem, vídeo e texto combinados.
O Apidog facilita a criação, testes e automação de requisições multimodais:
- Monte e salve modelos de requisição Qwen3.5-Omni
- Defina variáveis de ambiente para chaves de API
- Escreva testes automatizados para validar estrutura e conteúdo da resposta
- Compare latência e qualidade entre Plus, Flash e Light em poucos cliques
Baixe o Apidog gratuitamente para começar a testar requisições de API multimodais.
Para quem isso é
Avalie o Qwen3.5-Omni se você está construindo:
Assistentes de voz: Fala em tempo real, resposta em voz, memória de conversação, busca web integrada. Interrupção semântica e ARIA melhoram UX de voz.
Ferramentas de análise de vídeo: Resuma vídeos, transcreva reuniões, gere tutoriais de gravações de tela. Contexto de 256 mil tokens permite entrada longa sem segmentação.
Produtos multilíngues: ASR em 113 idiomas e TTS em 36, tudo em um modelo só.
Ferramentas de acessibilidade: Geração de texto alternativo, descrição de vídeo, legendas em tempo real para línguas com poucos recursos.
Ferramentas para devs: Codificação por Contexto Audiovisual converte gravações de tela em código funcional.
Acesso
O Qwen3.5-Omni está disponível via:
- API DashScope da Alibaba Cloud (produção)
- qwen.ai (web para testes)
- HuggingFace Hub (pesos para deploy local)
- ModelScope (recomendado na China continental)
A API usa autenticação padrão da Alibaba Cloud. Pegue sua chave do DashScope. Veja documentação do DashScope para endpoints e preços por modalidade.
O que observar
O Qwen3.5-Omni se destaca em benchmarks de áudio, mas teste diretamente seu caso de uso: resultados variam com vocabulário, sotaques e formatos.
Clonagem de voz está disponível só via API (não no web app). Deploy local da variante Plus exige pelo menos 40GB de VRAM; Flash e Light rodam em GPUs menores.
Perguntas Frequentes
Como o Qwen3.5-Omni é diferente do Qwen2.5-Omni?
O Qwen2.5-Omni usava modelos densos de 7B/3B e 19 idiomas para fala. O 3.5-Omni emprega MoE, reconhece 113 idiomas, adiciona clonagem de voz e ARIA para áudio superior. Ganhou em benchmarks e ampliou a janela de contexto.
Posso executar o Qwen3.5-Omni localmente?
Sim, via HuggingFace Transformers ou vLLM. Para a Plus, exige +40GB VRAM. Flash/Light rodam em GPUs menores. vLLM é recomendado para produção local com MoE.
Existe um nível gratuito?
A interface web qwen.ai é gratuita. O acesso à API DashScope é pago. Preços por modalidade (áudio, vídeo, texto) estão na documentação do DashScope.
Ele suporta streaming em tempo real?
Sim. A arquitetura Thinker-Talker gera áudio fragmentado e por streaming, entregando os primeiros bytes antes do fim da resposta.
Qual a diferença entre Plus, Flash e Light?
Plus: maior qualidade, ideal para máxima precisão. Flash: equilíbrio para produção. Light: mais rápida, para baixa latência (mobile/edge).
Posso usar minha própria voz com a API?
Sim, via clonagem de voz na API. Envie um áudio e o modelo usa sua voz para TTS. Não disponível via web ainda.
Como ele se compara ao ElevenLabs para geração de voz?
Nos benchmarks da Alibaba em 20 idiomas, Qwen3.5-Omni Plus supera ElevenLabs em estabilidade de voz multilíngue. ElevenLabs tem mais opções de personalização. Se precisa apenas de voz, compare ambos; para multimodalidade, Qwen3.5-Omni é mais completo.
É seguro enviar dados de áudio ou vídeo sensíveis pela API?
Revise o acordo de processamento de dados da Alibaba Cloud antes de enviar conteúdo sensível. Assuma que dados podem ser registrados, salvo garantia explícita em contrato.



Top comments (0)