Rihpig

Posted on Mar 31 • Originally published at apidog.com

Qwen3.5-Omni 출시: 알리바바의 멀티모달 AI, 오디오에서 Gemini를 능가하다

핵심 요약 (TL;DR)

Alibaba는 2026년 3월 30일 Qwen3.5-Omni를 출시했습니다. 이 모델은 텍스트, 이미지, 오디오, 비디오를 단일 모델에서 처리하며, 텍스트 및 실시간 음성 출력을 제공합니다. 일반 오디오 이해 및 추론 벤치마크에서 Gemini 3.1 Pro를 능가하고, 113개 언어 음성 인식 및 음성 복제 기능을 지원합니다. Plus, Flash, Light 세 가지 변형이 제공됩니다.

지금 Apidog을 사용해보세요

모든 것을 위한 하나의 모델

대부분의 AI 워크플로우는 음성-텍스트 변환, 시각 처리, 텍스트 생성, 텍스트-음성 변환 등 개별 모델을 체인으로 연결합니다. 이 과정은 지연, 비용, 오류 가능성을 높입니다.

Qwen3.5-Omni는 복잡한 구조를 단순화합니다. 텍스트, 이미지, 오디오, 비디오를 입력으로 받아 한 번의 모델 호출에서 텍스트 또는 음성으로 출력할 수 있습니다. 최대 256,000 토큰(10시간 이상의 오디오/약 400초의 720p 비디오)을 컨텍스트로 활용합니다.

Alibaba는 1억 시간 이상의 시청각 데이터로 이 모델을 훈련하여, 다양한 모달리티를 통합적으로 추론할 수 있게 만들었습니다. 음성, 비디오, 이미지, 텍스트 조합이 필요한 앱 개발 시, 이 모델은 API 차원의 혁신을 제공합니다.

Qwen3-Omni에서 변경된 점

Qwen3-Omni Flash(2025년 12월, 234ms 응답 지연) 이후, Qwen3.5-Omni(정식 버전)는 다음과 같이 개선되었습니다.

언어 지원 확장

음성 인식: 19개 → 113개 언어 및 방언 지원
음성 생성: 10개 → 36개 언어 지원 글로벌 시장에서 실질적인 차별점입니다.

음성 복제 기능

음성 샘플을 업로드하면 해당 음성으로 응답 가능.

Qwen3.5-Omni Plus/Flash에서 API로 사용 가능하며, 긴 대화에서도 일관된 화자 페르소나를 유지합니다.

ARIA 기술로 오디오 뭉개짐 현상 제거

숫자/고유명사/제품명 등에서 TTS 뭉개짐 문제를 해결합니다.

ARIA 계층이 텍스트 버퍼를 미리 읽고, 음소 생성을 조정하여 정확한 발음을 보장합니다.

의미론적 중단 처리

"응"은 이어서, "멈춰"는 즉시 중단 등 의미를 구별합니다.

실제 대화에서 자연스러운 음성 인터랙션이 가능해집니다.

실시간 웹 검색 통합

추론 중 모델이 직접 웹을 쿼리하여 최신 정보를 응답에 포함합니다.

시청각 바이브 코딩

화면 녹화를 비디오 입력으로 사용해, 모델이 화면의 동작을 분석하고 관련 코드를 생성합니다.

벤치마크 결과

36개 오디오/시청각 벤치마크 중 32개에서 최고 성능
22개에서 새로운 최고치 기록
일반 오디오 이해, 추론, 번역에서 Gemini 3.1 Pro 능가
시청각 이해 부문에서 Gemini 3.1 Pro와 동급

특히 음성 생성 품질은 20개 언어 기준 ElevenLabs, GPT-Audio, Minimax를 상회합니다.

모델 변형

Alibaba는 세 가지 버전을 제공합니다:

변형	최적 용도
Qwen3.5-Omni Plus	최고 품질; 시청각 추론, 음성 복제, 긴 컨텍스트 작업
Qwen3.5-Omni Flash	속도/품질 균형; 실시간 음성 채팅, 프로덕션 API
Qwen3.5-Omni Light	저지연; 모바일 및 엣지 시나리오

세 모델 모두 텍스트, 이미지, 오디오, 비디오 입력 지원.

Plus는 벤치마크 최상위, Flash는 실서비스에 적합, Light는 저지연 모바일/엣지에 추천.

256K 토큰 컨텍스트 창

오디오: 10시간+ 연속 음성
비디오: 약 400초(오디오 포함) 720p
텍스트: 약 19만 단어(소설 분량)

대부분의 멀티모달 케이스에서 입력 분할 없이 충분합니다.

113개 언어 음성 인식

19개 → 113개 언어로 확장.

적용 예시:

글로벌 고객지원: 별도 ASR 파이프라인 없이 다국어 음성 입력 지원
다국어 콘텐츠 처리: 팟캐스트, 비디오, 인터뷰의 전사/번역/요약
대화 중 언어 전환: 중간에 언어가 바뀌어도 기본적으로 처리

아키텍처: MoE 기반 Thinker-Talker

Thinker: 멀티모달 입력 처리, 추론 토큰 생성

Talker: 다중 코드북 기반, 토큰을 실시간 음성으로 변환

Plus 변형은 MoE(Mixture of Experts) 적용으로 일부 전문가만 활성화, 추론 속도/메모리 효율이 높음.

로컬 배포 시 vLLM 권장(MoE 라우팅 최적)
HuggingFace Transformers도 지원하지만 속도는 느림

Apidog의 역할

Qwen3.5-Omni API 사용 시, 오디오(base64), 이미지 URL, 비디오 참조, 텍스트가 혼합된 JSON을 전송하게 됩니다.

이런 멀티모달 API 요청을 디버깅하려면 강력한 API 클라이언트가 필요합니다.

Apidog은 다음을 지원합니다.

Qwen3.5-Omni 요청 템플릿 생성/저장
API 키 환경 변수 관리
자동화된 응답 검증 테스트 작성
세 가지 모델(Plus/Flash/Light)간 동일 요청 반복 실행 및 결과 비교

실전 예시:

{
  "audio": "base64-encoded-audio",
  "image": "https://your-cdn.com/sample.png",
  "video": "https://your-cdn.com/sample.mp4",
  "text": "이 비디오에서 핵심 내용을 요약해줘."
}

API 테스트 자동화, 응답 구조 검증, 모델별 품질/지연 비교를 바로 시작할 수 있습니다.

이 모델이 적합한 대상

Qwen3.5-Omni는 다음과 같은 개발에 적합합니다.

음성 비서: 대화 기억, 웹 검색, 의미론적 중단/ARIA 등 고급 음성 UX
비디오 분석 도구: 자동 요약, 전사, 튜토리얼 생성(긴 입력 처리)
다국어 고객 제품: 113개 언어 ASR, 36개 언어 TTS
접근성 도구: 이미지 대체 텍스트, 실시간 자막, 오디오 설명 등
개발자 생산성 도구: 시청각 바이브 코딩(화면 녹화 → 코드 자동화)

액세스

Qwen3.5-Omni 이용 방법:

Alibaba Cloud DashScope API (프로덕션용)
qwen.ai (테스트용 웹 인터페이스)
HuggingFace Hub (로컬 배포용 모델 가중치)
ModelScope (중국 본토 사용자)

DashScope API 키 필요.

엔드포인트, 모달리티별 가격 등은 DashScope 문서 참고.

주목할 점

오디오 벤치마크에서 강력한 성능
실제 도메인/억양/비디오 포맷 등 개별 상황은 직접 테스트 권장
음성 복제는 현재 API에서만 사용 가능(qwen.ai 웹에서는 미지원)
로컬 배포(Plus)는 최소 40GB VRAM 필요, Flash/Light가 더 접근성 높음

자주 묻는 질문

Qwen3.5-Omni는 Qwen2.5-Omni와 어떻게 다른가요?

Qwen2.5-Omni: 7B/3B 밀집 모델, 19개 언어
Qwen3.5-Omni: MoE 아키텍처, 113개 언어, 음성 복제, ARIA, 더 넓은 컨텍스트와 성능 개선

Qwen3.5-Omni를 로컬에서 실행할 수 있나요?

가능합니다. HuggingFace Transformers 또는 vLLM 기반.

Plus 변형: 40GB+ VRAM 필요, Flash/Light는 작은 GPU로도 실행.

무료 티어가 있나요?

qwen.ai 웹은 무료. DashScope API는 유료(모달리티별 과금).

실시간 스트리밍 지원하나요?

예. Thinker-Talker 아키텍처로 스트리밍 오디오 출력(실시간 대화 구현 가능).

Plus, Flash, Light 차이점은?

Plus: 최고 품질, 정밀 작업용
Flash: 속도/품질 균형, 프로덕션 API 기본
Light: 저지연, 모바일/엣지/지연 민감 작업

API로 내 목소리를 사용할 수 있나요?

예. 음성 샘플 업로드 시 해당 음성으로 TTS 출력(API에서만 지원).

음성 생성 품질은 ElevenLabs와 비교해 어떤가요?

Qwen3.5-Omni Plus가 20개 언어 기준 다국어 음성 안정성에서 ElevenLabs를 능가함.

ElevenLabs는 더 많은 커스텀 옵션 제공.

단일 멀티모달 모델이 필요하면 Qwen3.5-Omni가 더 적합.

민감한 오디오/비디오 데이터를 API로 보내도 안전한가요?

Alibaba Cloud의 데이터 처리 정책을 반드시 확인하세요.

별도 약정 없으면 데이터가 기록될 수 있음에 유의하세요.

DEV Community