Gemini 3.1 Flash TTS: 200+ Audio Tags로 AI 음성을 연기처럼 만들기

TL;DR

Google이 Gemini 3.1 Flash TTS를 발표했어요. 200개 이상의 오디오 태그로 음성 감정/속도/스타일을 인라인 제어할 수 있고, 네이티브 멀티 스피커 대화를 지원해요. 70개 이상 언어, 44.1kHz CD 품질.

기존 TTS의 문제

TTS를 써본 개발자라면 다 아는 문제죠.

입력: "안녕하세요, 반갑습니다!"
출력: 로봇이_감정없이_읽어주는_소리.wav

감정 제어? 속도 조절? 여러 캐릭터 대화? 전부 별도 처리가 필요했어요.

Gemini 3.1 Flash TTS가 다른 점

핵심은 인라인 오디오 태그예요. 텍스트에 직접 태그를 삽입하면 돼요.

[excitement] 드디어 출시됐어요!
[whispers] 비밀인데요...
[laughs] 그게 진짜 됐어요!
[slow] 자, 천천히 설명할게요.

200개 이상의 태그가 있어요:

카테고리	태그 예시
감정	`[excitement]`, `[determination]`, `[curiosity]`, `[frustration]`
표현	`[whispers]`, `[laughs]`, `[sigh]`, `[gasp]`, `[singing]`
페이싱	`[slow]`, `[fast]`, `[extremely fast]`
캐릭터	`[like dracula]`, `[like a dog]`

태그 조합에 제한이 없어서 자유롭게 섞을 수 있어요.

3단계 프롬프팅 구조

영화 제작 방식이에요.

1단계: Audio Profile (캐스팅)

이름: 수진
성격: 밝고 에너지 넘치는 테크 유튜버
악센트: 서울 표준어
목소리: 밝은 톤, 약간 빠른 말투

2단계: Scene Direction (연출)

환경: 테크 리뷰 팟캐스트 녹음실
지침: 새 기술에 대한 흥분을 자연스럽게 표현,
      전문 용어는 천천히 설명

3단계: Transcript (대본)

[excitement] 여러분, 오늘 소개할 기술이 정말 대단해요!
[slow] Gemini 3.1 Flash TTS라고 하는데요.
[determination] 이건 기존 TTS랑 차원이 달라요.

프롬프트 공식:

[pacing] + 대사 + [expression] + 대사 + [pause] + 대사

네이티브 멀티 스피커

기존에는 화자별로 API를 따로 호출해야 했어요.

# 기존 방식 (번거로움)
audio_a = tts_api.generate(speaker="A", text="안녕하세요")
audio_b = tts_api.generate(speaker="B", text="반갑습니다")
combined = merge_audio(audio_a, audio_b)

# Gemini 3.1 Flash TTS (네이티브)
# Audio Profile A, B 설정 후
# Transcript에 대화를 그대로 작성하면 끝

팟캐스트, 게임 NPC 대사, 교육 콘텐츠의 다중 화자 대화를 하나의 API 호출로 처리할 수 있어요.

스펙 요약

항목	사양
모델 ID	`gemini-3.1-flash-tts-preview`
Elo Score	1,211
언어	70+ (한국어 포함)
오디오 포맷	MP3, OGG_OPUS, LINEAR16, PCM
샘플링 레이트	44,100Hz (CD 품질)
안전	SynthID 워터마킹
플랫폼	Gemini API, AI Studio, Vertex AI

시작하기

Google AI Studio에서 바로 테스트 가능해요. Scene Direction으로 환경 잡고, Transcript에 오디오 태그 넣어서 실험해보세요. 만족스러우면 Gemini API 코드로 원클릭 내보내기.

공식 문서: https://cloud.google.com/text-to-speech/docs/gemini-tts
블로그: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
프롬프팅 가이드: https://dev.to/googleai/how-to-prompt-gemini-31s-new-text-to-speech-model-24bb

TTS가 "합성"에서 "연기"로 바뀌는 전환점이라고 생각해요. 오디오 태그 조합만으로 캐릭터에 생명을 불어넣을 수 있으니까요.

이미 테스트해보신 분 계시면 경험 공유해주세요!