IndexTTS2: TTS Zero-Shot dengan Kontrol Emosi & Durasi
IndexTTS2 adalah sistem text-to-speech zero-shot autoregresif yang kuat dengan kontrol tanpa preseden atas generasi ucapan. Dengan ekspresi emosi canggih, kontrol durasi yang presisi, dan kemampuan kloning suara instan, menghasilkan sintesis ucapan alami dan ekspresif dalam berbagai bahasa. Dirilis di bawah lisensi Apache 2.0, sepenuhnya open-source dan siap untuk penggunaan komersial.
Biarkan Peluru Terbang - Demo Kontrol Durasi
Mendemonstrasikan kontrol durasi ucapan yang presisi dengan pelestarian ekspresi emosional
Kontrol Durasi
Penyesuaian waktu yang presisi
Kontrol Emosi
Ekspresi emosional alami
Zero-Shot
Tidak perlu pelatihan
Coba Demo Langsung IndexTTS2
Rasakan kemampuan kloning suara dan kontrol emosi IndexTTS2 yang kuat secara real-time. Hasilkan ucapan alami dan ekspresif dengan kontrol durasi yang presisi dan dukungan multi-bahasa. Kloning suara apa pun secara instan tanpa pelatihan.
Loading IndexTTS2...
Apa Kata Orang Tentang IndexTTS2
Dengarkan apa yang dikatakan peneliti, pengembang, dan penggemar AI tentang kemampuan kloning suara dan kontrol emosi terobosan IndexTTS2

Index TTS2 – TTS SANGAT Emosional Dengan Kloning Suara!
Model sumber terbuka ini menjadi sangat bagus. Benar-benar terkesan.

Model AI Text to Speech Baru yang Fantastis Dirilis! Index TTS 2 Kesan Pertama
Higgs Audio tetap tak terkalahkan. Semoga model terlatih v3 mereka akan menampilkan emosi yang dapat dikontrol.

AI text to speech terbaik baru ada di sini! Gratis & tanpa sensor. Tutorial IndexTTS2
"Halo ini ibu Joe, dia tidak enak badan hari ini dan perlu tinggal di rumah tidak sekolah sampai dia sembuh."
Perbandingan Performa dengan Model TTS Terkemuka
Lihat bagaimana IndexTTS2 bersaing dengan model text-to-speech state-of-the-art dalam ekspresi emosi, akurasi durasi, kualitas kloning suara, dan dukungan multi-bahasa.
| Metric | IndexTTS2 | OpenAI TTS | ElevenLabs | Azure TTS | F5-TTS | CosyVoice |
|---|---|---|---|---|---|---|
| WER (Word Error Rate)% | 1.01 | N/A | N/A | N/A | 1.56 | 1.45 |
| Speaker Similarity | 0.87 | N/A | N/A | N/A | 0.82 | 0.85 |
| MOS (Naturalness)/5.0 | 4.54 | 4.2 | 4.3 | 4.3 | 4.19 | 4.12 |
| Emotion Control | ✓ | ✗ | Limited | Limited | ✗ | ✓ |
| Duration Control | ✓ | ✗ | ✗ | ✗ | Limited | Limited |
| Zero-Shot Cloning | ✓ | ✓ | ✓ | ✗ | ✓ | ✓ |
| Supported Languages | 2+ | 57 | 29 | 119 | 2 | Multi |
| RTF (Real-Time Factor) | N/A | 0.20 | 0.15 | N/A | 0.15 | N/A |
Comparative performance across key TTS quality metrics based on academic benchmarks
Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)
Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.
✓ = Supported | ✗ = Not Supported | Limited = Partial Support
Panduan Mulai Cepat
Deploy IndexTTS2 secara lokal dalam hitungan menit dengan panduan langkah demi langkah komprehensif kami. Mulai menghasilkan ucapan alami dan emosional dengan kemampuan kloning suara zero-shot.
Contoh Python API
from indextts import IndexTTS
# Initialize the model
tts = IndexTTS()
# Generate speech from text
audio = tts.synthesize(
text="Hello world! Welcome to IndexTTS2.",
voice_reference="path/to/reference.wav", # Optional: clone a voice
emotion="neutral", # Control emotion: happy, sad, angry, neutral
speed=1.0, # Adjust speaking speed
language="en" # Supported: en, zh
)
# Save the output
audio.save("output.wav")Dokumentasi
Panduan lengkap dan referensi API
Repositori GitHub
Kode sumber dan contoh
Komunitas
Dapatkan bantuan dan bagikan ide
Fitur Utama IndexTTS2
Temukan kemampuan kuat yang menjadikan IndexTTS2 pilihan ideal untuk generasi text-to-speech ekspresif dan dapat dikontrol.
Kloning Suara Zero-Shot
Kloning suara apa pun secara instan dari hanya beberapa detik audio tanpa pelatihan. Mencapai reproduksi suara fidelitas tinggi dengan konsistensi pembicara di berbagai konten dan emosi.
Kontrol Ekspresi Emosi
Pisahkan timbre dari emosi untuk kontrol independen. Gunakan deskripsi teks untuk memandu ekspresi emosional (bahagia, sedih, bersemangat, marah) sambil mempertahankan identitas suara dan kealamian.
Kontrol Durasi Presisi
TTS autoregresif pertama yang menggabungkan kontrol durasi akurat dengan generasi alami. Mencapai waktu ucapan yang presisi tanpa mengorbankan ekspresivitas atau kualitas prosodi.
Dukungan Multi-Bahasa
Dukungan native untuk Bahasa Mandarin, Inggris, dan sintesis campuran Mandarin-Inggris. Mempertahankan pengucapan dan intonasi alami di batas bahasa.
Kontrol Pengucapan Pinyin
Kontrol pengucapan canggih melalui notasi pinyin untuk teks Mandarin. Mengatasi pengucapan ambigu dan memastikan pembacaan karakter yang akurat dalam konteks kompleks.
Kealamian & Kejelasan Tinggi
Word error rate (WER) superior dan pelestarian emosi dibandingkan dengan model yang ada. Mencapai penilaian kealamian seperti manusia dengan kejelasan dan inteligibilitas luar biasa.
Apa yang Dibicarakan Orang Tentang IndexTTS2 di X
Bergabunglah dalam percakapan tentang IndexTTS2 dan bagikan pengalaman Anda dengan komunitas penelitian
How do you make TTS both natural and precisely timed for dubbing or sync? 🎙️⏱️
— 机器之心 JIQIZHIXIN (@jiqizhixin) September 19, 2025
Meet IndexTTS2—an autoregressive model with novel duration control:
- Mode 1: specify token count → exact speech length
- Mode 2: free AR generation → natural prosody preserved
✨ Extra features:… pic.twitter.com/nvmq05xU5Z
🗣️✨Bilibili just dropped IndexTTS2, and it might be the most expressive and controllable zero-shot TTS model yet!
— 机器之心 JIQIZHIXIN (@jiqizhixin) August 1, 2025
It's a breakthrough for autoregressive models, bringing precise timing and rich emotion to synthesized speech.
Basically, it can produce a voice that sounds like… pic.twitter.com/w625jhRwkq
IndexTTS2: New AI text to speech with full emotion control
— ⚡AI Search⚡ (@aisearchio) September 18, 2025
Free & open-source!
Here's the full tutorial: https://t.co/dzMMT5JvcR pic.twitter.com/LCELPyMwtj
IndexTTS2, one of the most realistic and expressive text-to-speech model so far.
— Rohan Paul (@rohanpaul_ai) July 14, 2025
Fully local with open weights.
Zero-shot voice cloning. You just provide one audio file (in any language) and it will extremely accurately clone the voice style and rhythm. It sounds much more… pic.twitter.com/6ixAtbCrnn
⭐ Today’s China AI Native Industry Insights include:
— AI Native Foundation (@AINativeF) July 15, 2025
1. MoonshotAI releases Kimi K2: Open-Source Agentic Intelligence at Scale
2. Exciting Upgrade: Alibaba's Qwen Chat Launches Enhanced Features!
3. Bilibili launches IndexTTS2: Revolutionizing Voice Synthesis with Emotion… pic.twitter.com/ov85VOyVjy
来看 Index TTS2 和 VibeVoice-7B 哪个效果好?
— karminski-牙医 (@karminski3) September 19, 2025
需要注意的是,生成长音频的时候,这两个模型都会抖动,所以解决方案是,可以多生成一块,然后反复生成把有瑕疵的部分裁剪掉。
这两个 workflow 都是开源的:
VibeVoice: https://t.co/RV3qYA9UkP
IndexTTS2: https://t.co/ptagLxcZLQ… pic.twitter.com/o0CSUCdPhw
B站上大分!IndexTTS2 名副其实的好!
— Gorden Sun (@Gorden_Sun) September 11, 2025
不仅能克隆音色,而且能还原情感和语调,这一点比11Labs还要强的多。 pic.twitter.com/aT03Yk0dac
