TL;DR
Google이 Gemini 3.1 Flash TTS를 발표했어요. 200개 이상의 오디오 태그로 음성 감정/속도/스타일을 인라인 제어할 수 있고, 네이티브 멀티 스피커 대화를 지원해요. 70개 이상 언어, 44.1kHz CD 품질.
기존 TTS의 문제
TTS를 써본 개발자라면 다 아는 문제죠.
입력: "안녕하세요, 반갑습니다!"
출력: 로봇이_감정없이_읽어주는_소리.wav
감정 제어? 속도 조절? 여러 캐릭터 대화? 전부 별도 처리가 필요했어요.
Gemini 3.1 Flash TTS가 다른 점
핵심은 인라인 오디오 태그예요. 텍스트에 직접 태그를 삽입하면 돼요.
[excitement] 드디어 출시됐어요!
[whispers] 비밀인데요...
[laughs] 그게 진짜 됐어요!
[slow] 자, 천천히 설명할게요.
200개 이상의 태그가 있어요:
| 카테고리 | 태그 예시 |
|---|---|
| 감정 |
[excitement], [determination], [curiosity], [frustration]
|
| 표현 |
[whispers], [laughs], [sigh], [gasp], [singing]
|
| 페이싱 |
[slow], [fast], [extremely fast]
|
| 캐릭터 |
[like dracula], [like a dog]
|
태그 조합에 제한이 없어서 자유롭게 섞을 수 있어요.
3단계 프롬프팅 구조
영화 제작 방식이에요.
1단계: Audio Profile (캐스팅)
이름: 수진
성격: 밝고 에너지 넘치는 테크 유튜버
악센트: 서울 표준어
목소리: 밝은 톤, 약간 빠른 말투
2단계: Scene Direction (연출)
환경: 테크 리뷰 팟캐스트 녹음실
지침: 새 기술에 대한 흥분을 자연스럽게 표현,
전문 용어는 천천히 설명
3단계: Transcript (대본)
[excitement] 여러분, 오늘 소개할 기술이 정말 대단해요!
[slow] Gemini 3.1 Flash TTS라고 하는데요.
[determination] 이건 기존 TTS랑 차원이 달라요.
프롬프트 공식:
[pacing] + 대사 + [expression] + 대사 + [pause] + 대사
네이티브 멀티 스피커
기존에는 화자별로 API를 따로 호출해야 했어요.
# 기존 방식 (번거로움)
audio_a = tts_api.generate(speaker="A", text="안녕하세요")
audio_b = tts_api.generate(speaker="B", text="반갑습니다")
combined = merge_audio(audio_a, audio_b)
# Gemini 3.1 Flash TTS (네이티브)
# Audio Profile A, B 설정 후
# Transcript에 대화를 그대로 작성하면 끝
팟캐스트, 게임 NPC 대사, 교육 콘텐츠의 다중 화자 대화를 하나의 API 호출로 처리할 수 있어요.
스펙 요약
| 항목 | 사양 |
|---|---|
| 모델 ID | gemini-3.1-flash-tts-preview |
| Elo Score | 1,211 |
| 언어 | 70+ (한국어 포함) |
| 오디오 포맷 | MP3, OGG_OPUS, LINEAR16, PCM |
| 샘플링 레이트 | 44,100Hz (CD 품질) |
| 안전 | SynthID 워터마킹 |
| 플랫폼 | Gemini API, AI Studio, Vertex AI |
시작하기
Google AI Studio에서 바로 테스트 가능해요. Scene Direction으로 환경 잡고, Transcript에 오디오 태그 넣어서 실험해보세요. 만족스러우면 Gemini API 코드로 원클릭 내보내기.
공식 문서: https://cloud.google.com/text-to-speech/docs/gemini-tts
블로그: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
프롬프팅 가이드: https://dev.to/googleai/how-to-prompt-gemini-31s-new-text-to-speech-model-24bb
TTS가 "합성"에서 "연기"로 바뀌는 전환점이라고 생각해요. 오디오 태그 조합만으로 캐릭터에 생명을 불어넣을 수 있으니까요.
이미 테스트해보신 분 계시면 경험 공유해주세요!
Top comments (0)