Qwen3-TTS-JP

Windowsネイティブ対応 の Qwen3-TTS 日本語ローカライズ版フォークです。

オリジナルのQwen3-TTSはLinux環境を前提として開発されており、FlashAttention 2の使用が推奨されていますが、FlashAttention 2はWindowsでは動作しません。本フォークでは、WSL2やDockerを使わずにWindows上で直接動作させるための対応と、GUIの完全日本語化、Whisperによる自動文字起こし機能を追加しています。

特徴

Windowsネイティブ対応

FlashAttention 2不要: --no-flash-attnオプションによりPyTorch標準のSDPA（Scaled Dot Product Attention）を使用
WSL2/Docker不要: Windows上で直接実行可能
RTX 50シリーズ対応: NVIDIA Blackwellアーキテクチャ（sm_120）用PyTorch nightlyビルドの導入手順を記載
SoX依存の回避: SoXがなくても動作（警告は表示されますが無視可能）

日本語ローカライズ & 機能拡張

GUIの完全日本語化: ラベル、ボタン、プレースホルダー、エラーメッセージ、免責事項すべてを日本語化
Whisper自動文字起こし機能: ボイスクローン時の参照音声テキスト入力を自動化（faster-whisper を使用）
Whisperモデル選択機能: 用途に応じて5種類のモデルから選択可能
- tiny - 最速・最小（39M パラメータ）
- base - 高速（74M パラメータ）
- small - バランス型（244M パラメータ）※デフォルト
- medium - 高精度（769M パラメータ）
- large-v3 - 最高精度（1550M パラメータ）

動作環境

OS: Windows 10/11（ネイティブ環境、WSL2不要）
GPU: NVIDIA GPU（CUDA対応）
- RTX 30/40シリーズ: PyTorch安定版で動作
- RTX 50シリーズ（Blackwell）: PyTorch nightlyビルド（cu128）が必要
Python: 3.10以上
VRAM: 8GB以上推奨（モデルサイズにより異なる）

インストール

1. リポジトリのクローン

git clone https://github.com/hiroki-abe-58/Qwen3-TTS-JP.git
cd Qwen3-TTS-JP

2. 仮想環境の作成と有効化

python -m venv .venv
.venv\Scripts\activate

3. 依存パッケージのインストール

pip install -e .
pip install faster-whisper

4. PyTorch（CUDA対応版）のインストール

お使いのCUDAバージョンに合わせてインストールしてください。

# CUDA 12.x の場合
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

# RTX 50シリーズ（sm_120）の場合はnightlyビルドが必要
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128

使用方法

GUIの起動

コマンドラインから起動

# CustomVoiceモデル（プリセット話者）
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --ip 127.0.0.1

…

GPU	VRAM	Model	Status
RTX 5090	32GB	1.7B	✅ Works
RTX 4090	24GB	1.7B	✅ Works
RTX 3080	10GB	0.6B	✅ Works

Model	Params	Speed	Accuracy
tiny	39M	⚡⚡⚡⚡⚡	★★
small	244M	⚡⚡⚡	★★★★
large-v3	1.5B	⚡	★★★★★

Error	Fix
`CUDA out of memory`	Use 0.6B model or add FlashAttention 2
`faster-whisper not found`	`pip install faster-whisper`

DEV Community

Run Qwen3-TTS on Windows with RTX 5090: Voice Cloning in 3 Seconds

Run Qwen3-TTS on Windows with RTX 5090: The Complete Guide to Voice Cloning in 3 Seconds

TL;DR

hiroki-abe-58 / Qwen3-TTS-JP

Japanese GUI + Whisper auto-transcription for Qwen3-TTS. RTX 5090 tested.

Qwen3-TTS-JP

特徴

Windowsネイティブ対応

日本語ローカライズ & 機能拡張

動作環境

インストール

1. リポジトリのクローン

2. 仮想環境の作成と有効化

3. 依存パッケージのインストール

4. PyTorch（CUDA対応版）のインストール

使用方法

GUIの起動

コマンドラインから起動

The Problem: Getting Qwen3-TTS Running on Windows

What Makes This Fork Different?

1. Native Windows Support

2. RTX 5090 (Blackwell) Tested

3. Whisper Auto-Transcription

Quick Start

Launch the GUI

Python API

Use Cases

Content Creators

Game Developers

Podcasters

Supported Languages

Troubleshooting

Ethical Note

Links

Top comments (0)