Open Source🚀 Lisensi Apache 2.0 - Gratis untuk Penggunaan Komersial!

IndexTTS2: TTS Zero-Shot dengan Kontrol Emosi & Durasi

IndexTTS2 adalah sistem text-to-speech zero-shot autoregresif yang kuat dengan kontrol tanpa preseden atas generasi ucapan. Dengan ekspresi emosi canggih, kontrol durasi yang presisi, dan kemampuan kloning suara instan, menghasilkan sintesis ucapan alami dan ekspresif dalam berbagai bahasa. Dirilis di bawah lisensi Apache 2.0, sepenuhnya open-source dan siap untuk penggunaan komersial.

Biarkan Peluru Terbang - Demo Kontrol Durasi

Mendemonstrasikan kontrol durasi ucapan yang presisi dengan pelestarian ekspresi emosional

Kontrol Durasi

Penyesuaian waktu yang presisi

Kontrol Emosi

Ekspresi emosional alami

Zero-Shot

Tidak perlu pelatihan

Coba Demo Langsung IndexTTS2

Rasakan kemampuan kloning suara dan kontrol emosi IndexTTS2 yang kuat secara real-time. Hasilkan ucapan alami dan ekspresif dengan kontrol durasi yang presisi dan dukungan multi-bahasa. Kloning suara apa pun secara instan tanpa pelatihan.

Loading IndexTTS2...

Ulasan

Apa Kata Orang Tentang IndexTTS2

Dengarkan apa yang dikatakan peneliti, pengembang, dan penggemar AI tentang kemampuan kloning suara dan kontrol emosi terobosan IndexTTS2

Index TTS2 – TTS SANGAT Emosional Dengan Kloning Suara!

Index TTS2 – TTS SANGAT Emosional Dengan Kloning Suara!

Model sumber terbuka ini menjadi sangat bagus. Benar-benar terkesan.

Model AI Text to Speech Baru yang Fantastis Dirilis! Index TTS 2 Kesan Pertama

Model AI Text to Speech Baru yang Fantastis Dirilis! Index TTS 2 Kesan Pertama

Higgs Audio tetap tak terkalahkan. Semoga model terlatih v3 mereka akan menampilkan emosi yang dapat dikontrol.

AI text to speech terbaik baru ada di sini! Gratis & tanpa sensor. Tutorial IndexTTS2

AI text to speech terbaik baru ada di sini! Gratis & tanpa sensor. Tutorial IndexTTS2

"Halo ini ibu Joe, dia tidak enak badan hari ini dan perlu tinggal di rumah tidak sekolah sampai dia sembuh."

Perbandingan Performa dengan Model TTS Terkemuka

Lihat bagaimana IndexTTS2 bersaing dengan model text-to-speech state-of-the-art dalam ekspresi emosi, akurasi durasi, kualitas kloning suara, dan dukungan multi-bahasa.

MetricIndexTTS2OpenAI TTSElevenLabsAzure TTSF5-TTSCosyVoice
WER (Word Error Rate)%
1.01
N/A
N/A
N/A
1.56
1.45
Speaker Similarity
0.87
N/A
N/A
N/A
0.82
0.85
MOS (Naturalness)/5.0
4.54
4.2
4.3
4.3
4.19
4.12
Emotion Control
Limited
Limited
Duration Control
Limited
Limited
Zero-Shot Cloning
Supported Languages
2+
57
29
119
2
Multi
RTF (Real-Time Factor)
N/A
0.20
0.15
N/A
0.15
N/A

Comparative performance across key TTS quality metrics based on academic benchmarks

Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)

Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.

✓ = Supported | ✗ = Not Supported | Limited = Partial Support

Deployment Lokal

Panduan Mulai Cepat

Deploy IndexTTS2 secara lokal dalam hitungan menit dengan panduan langkah demi langkah komprehensif kami. Mulai menghasilkan ucapan alami dan emosional dengan kemampuan kloning suara zero-shot.

Contoh Python API

from indextts import IndexTTS

# Initialize the model
tts = IndexTTS()

# Generate speech from text
audio = tts.synthesize(
    text="Hello world! Welcome to IndexTTS2.",
    voice_reference="path/to/reference.wav",  # Optional: clone a voice
    emotion="neutral",  # Control emotion: happy, sad, angry, neutral
    speed=1.0,  # Adjust speaking speed
    language="en"  # Supported: en, zh
)

# Save the output
audio.save("output.wav")

Dokumentasi

Panduan lengkap dan referensi API

Repositori GitHub

Kode sumber dan contoh

Komunitas

Dapatkan bantuan dan bagikan ide

Fitur Utama IndexTTS2

Temukan kemampuan kuat yang menjadikan IndexTTS2 pilihan ideal untuk generasi text-to-speech ekspresif dan dapat dikontrol.

Kloning Suara Zero-Shot

Kloning suara apa pun secara instan dari hanya beberapa detik audio tanpa pelatihan. Mencapai reproduksi suara fidelitas tinggi dengan konsistensi pembicara di berbagai konten dan emosi.

Kontrol Ekspresi Emosi

Pisahkan timbre dari emosi untuk kontrol independen. Gunakan deskripsi teks untuk memandu ekspresi emosional (bahagia, sedih, bersemangat, marah) sambil mempertahankan identitas suara dan kealamian.

Kontrol Durasi Presisi

TTS autoregresif pertama yang menggabungkan kontrol durasi akurat dengan generasi alami. Mencapai waktu ucapan yang presisi tanpa mengorbankan ekspresivitas atau kualitas prosodi.

Dukungan Multi-Bahasa

Dukungan native untuk Bahasa Mandarin, Inggris, dan sintesis campuran Mandarin-Inggris. Mempertahankan pengucapan dan intonasi alami di batas bahasa.

Kontrol Pengucapan Pinyin

Kontrol pengucapan canggih melalui notasi pinyin untuk teks Mandarin. Mengatasi pengucapan ambigu dan memastikan pembacaan karakter yang akurat dalam konteks kompleks.

Kealamian & Kejelasan Tinggi

Word error rate (WER) superior dan pelestarian emosi dibandingkan dengan model yang ada. Mencapai penilaian kealamian seperti manusia dengan kejelasan dan inteligibilitas luar biasa.

Apa yang Dibicarakan Orang Tentang IndexTTS2 di X

Bergabunglah dalam percakapan tentang IndexTTS2 dan bagikan pengalaman Anda dengan komunitas penelitian

FAQ