DEV Community

Cover image for Qwen3.5-Omni 출시: 알리바바의 멀티모달 AI, 오디오에서 Gemini를 능가하다
Rihpig
Rihpig

Posted on • Originally published at apidog.com

Qwen3.5-Omni 출시: 알리바바의 멀티모달 AI, 오디오에서 Gemini를 능가하다

핵심 요약 (TL;DR)

Alibaba는 2026년 3월 30일 Qwen3.5-Omni를 출시했습니다. 이 모델은 텍스트, 이미지, 오디오, 비디오를 단일 모델에서 처리하며, 텍스트 및 실시간 음성 출력을 제공합니다. 일반 오디오 이해 및 추론 벤치마크에서 Gemini 3.1 Pro를 능가하고, 113개 언어 음성 인식 및 음성 복제 기능을 지원합니다. Plus, Flash, Light 세 가지 변형이 제공됩니다.

지금 Apidog을 사용해보세요

모든 것을 위한 하나의 모델

대부분의 AI 워크플로우는 음성-텍스트 변환, 시각 처리, 텍스트 생성, 텍스트-음성 변환 등 개별 모델을 체인으로 연결합니다. 이 과정은 지연, 비용, 오류 가능성을 높입니다.

Qwen3.5-Omni는 복잡한 구조를 단순화합니다. 텍스트, 이미지, 오디오, 비디오를 입력으로 받아 한 번의 모델 호출에서 텍스트 또는 음성으로 출력할 수 있습니다. 최대 256,000 토큰(10시간 이상의 오디오/약 400초의 720p 비디오)을 컨텍스트로 활용합니다.

Alibaba는 1억 시간 이상의 시청각 데이터로 이 모델을 훈련하여, 다양한 모달리티를 통합적으로 추론할 수 있게 만들었습니다. 음성, 비디오, 이미지, 텍스트 조합이 필요한 앱 개발 시, 이 모델은 API 차원의 혁신을 제공합니다.

Qwen3-Omni에서 변경된 점

Qwen3-Omni Flash(2025년 12월, 234ms 응답 지연) 이후, Qwen3.5-Omni(정식 버전)는 다음과 같이 개선되었습니다.

Qwen3.5-Omni 개선점

언어 지원 확장

  • 음성 인식: 19개 → 113개 언어 및 방언 지원
  • 음성 생성: 10개 → 36개 언어 지원 글로벌 시장에서 실질적인 차별점입니다.

음성 복제 기능

음성 샘플을 업로드하면 해당 음성으로 응답 가능.

Qwen3.5-Omni Plus/Flash에서 API로 사용 가능하며, 긴 대화에서도 일관된 화자 페르소나를 유지합니다.

ARIA 기술로 오디오 뭉개짐 현상 제거

숫자/고유명사/제품명 등에서 TTS 뭉개짐 문제를 해결합니다.

ARIA 계층이 텍스트 버퍼를 미리 읽고, 음소 생성을 조정하여 정확한 발음을 보장합니다.

의미론적 중단 처리

"응"은 이어서, "멈춰"는 즉시 중단 등 의미를 구별합니다.

실제 대화에서 자연스러운 음성 인터랙션이 가능해집니다.

실시간 웹 검색 통합

추론 중 모델이 직접 웹을 쿼리하여 최신 정보를 응답에 포함합니다.

시청각 바이브 코딩

화면 녹화를 비디오 입력으로 사용해, 모델이 화면의 동작을 분석하고 관련 코드를 생성합니다.

벤치마크 결과

  • 36개 오디오/시청각 벤치마크 중 32개에서 최고 성능
  • 22개에서 새로운 최고치 기록
  • 일반 오디오 이해, 추론, 번역에서 Gemini 3.1 Pro 능가
  • 시청각 이해 부문에서 Gemini 3.1 Pro와 동급

특히 음성 생성 품질은 20개 언어 기준 ElevenLabs, GPT-Audio, Minimax를 상회합니다.


모델 변형

Alibaba는 세 가지 버전을 제공합니다:

변형 최적 용도
Qwen3.5-Omni Plus 최고 품질; 시청각 추론, 음성 복제, 긴 컨텍스트 작업
Qwen3.5-Omni Flash 속도/품질 균형; 실시간 음성 채팅, 프로덕션 API
Qwen3.5-Omni Light 저지연; 모바일 및 엣지 시나리오

세 모델 모두 텍스트, 이미지, 오디오, 비디오 입력 지원.

Plus는 벤치마크 최상위, Flash는 실서비스에 적합, Light는 저지연 모바일/엣지에 추천.

256K 토큰 컨텍스트 창

  • 오디오: 10시간+ 연속 음성
  • 비디오: 약 400초(오디오 포함) 720p
  • 텍스트: 약 19만 단어(소설 분량)

대부분의 멀티모달 케이스에서 입력 분할 없이 충분합니다.

113개 언어 음성 인식

19개 → 113개 언어로 확장.

적용 예시:

  • 글로벌 고객지원: 별도 ASR 파이프라인 없이 다국어 음성 입력 지원
  • 다국어 콘텐츠 처리: 팟캐스트, 비디오, 인터뷰의 전사/번역/요약
  • 대화 중 언어 전환: 중간에 언어가 바뀌어도 기본적으로 처리

아키텍처: MoE 기반 Thinker-Talker

Thinker: 멀티모달 입력 처리, 추론 토큰 생성

Talker: 다중 코드북 기반, 토큰을 실시간 음성으로 변환

아키텍처 다이어그램

Plus 변형은 MoE(Mixture of Experts) 적용으로 일부 전문가만 활성화, 추론 속도/메모리 효율이 높음.

  • 로컬 배포 시 vLLM 권장(MoE 라우팅 최적)
  • HuggingFace Transformers도 지원하지만 속도는 느림

Apidog의 역할

Qwen3.5-Omni API 사용 시, 오디오(base64), 이미지 URL, 비디오 참조, 텍스트가 혼합된 JSON을 전송하게 됩니다.

API 요청 예시

이런 멀티모달 API 요청을 디버깅하려면 강력한 API 클라이언트가 필요합니다.

Apidog은 다음을 지원합니다.

  • Qwen3.5-Omni 요청 템플릿 생성/저장
  • API 키 환경 변수 관리
  • 자동화된 응답 검증 테스트 작성
  • 세 가지 모델(Plus/Flash/Light)간 동일 요청 반복 실행 및 결과 비교

실전 예시:

{
  "audio": "base64-encoded-audio",
  "image": "https://your-cdn.com/sample.png",
  "video": "https://your-cdn.com/sample.mp4",
  "text": "이 비디오에서 핵심 내용을 요약해줘."
}
Enter fullscreen mode Exit fullscreen mode

API 테스트 자동화, 응답 구조 검증, 모델별 품질/지연 비교를 바로 시작할 수 있습니다.

이 모델이 적합한 대상

Qwen3.5-Omni는 다음과 같은 개발에 적합합니다.

  • 음성 비서: 대화 기억, 웹 검색, 의미론적 중단/ARIA 등 고급 음성 UX
  • 비디오 분석 도구: 자동 요약, 전사, 튜토리얼 생성(긴 입력 처리)
  • 다국어 고객 제품: 113개 언어 ASR, 36개 언어 TTS
  • 접근성 도구: 이미지 대체 텍스트, 실시간 자막, 오디오 설명 등
  • 개발자 생산성 도구: 시청각 바이브 코딩(화면 녹화 → 코드 자동화)

액세스

Qwen3.5-Omni 이용 방법:

  • Alibaba Cloud DashScope API (프로덕션용)
  • qwen.ai (테스트용 웹 인터페이스)
  • HuggingFace Hub (로컬 배포용 모델 가중치)
  • ModelScope (중국 본토 사용자)

DashScope API 키 필요.

엔드포인트, 모달리티별 가격 등은 DashScope 문서 참고.

주목할 점

  • 오디오 벤치마크에서 강력한 성능
  • 실제 도메인/억양/비디오 포맷 등 개별 상황은 직접 테스트 권장
  • 음성 복제는 현재 API에서만 사용 가능(qwen.ai 웹에서는 미지원)
  • 로컬 배포(Plus)는 최소 40GB VRAM 필요, Flash/Light가 더 접근성 높음

자주 묻는 질문

Qwen3.5-Omni는 Qwen2.5-Omni와 어떻게 다른가요?

  • Qwen2.5-Omni: 7B/3B 밀집 모델, 19개 언어
  • Qwen3.5-Omni: MoE 아키텍처, 113개 언어, 음성 복제, ARIA, 더 넓은 컨텍스트와 성능 개선

Qwen3.5-Omni를 로컬에서 실행할 수 있나요?

가능합니다. HuggingFace Transformers 또는 vLLM 기반.

Plus 변형: 40GB+ VRAM 필요, Flash/Light는 작은 GPU로도 실행.

무료 티어가 있나요?

qwen.ai 웹은 무료. DashScope API는 유료(모달리티별 과금).

실시간 스트리밍 지원하나요?

예. Thinker-Talker 아키텍처로 스트리밍 오디오 출력(실시간 대화 구현 가능).

Plus, Flash, Light 차이점은?

  • Plus: 최고 품질, 정밀 작업용
  • Flash: 속도/품질 균형, 프로덕션 API 기본
  • Light: 저지연, 모바일/엣지/지연 민감 작업

API로 내 목소리를 사용할 수 있나요?

예. 음성 샘플 업로드 시 해당 음성으로 TTS 출력(API에서만 지원).

음성 생성 품질은 ElevenLabs와 비교해 어떤가요?

Qwen3.5-Omni Plus가 20개 언어 기준 다국어 음성 안정성에서 ElevenLabs를 능가함.

ElevenLabs는 더 많은 커스텀 옵션 제공.

단일 멀티모달 모델이 필요하면 Qwen3.5-Omni가 더 적합.

민감한 오디오/비디오 데이터를 API로 보내도 안전한가요?

Alibaba Cloud의 데이터 처리 정책을 반드시 확인하세요.

별도 약정 없으면 데이터가 기록될 수 있음에 유의하세요.

Top comments (0)