Open Source🚀 Apache 2.0 Lizenz - Kostenlos für kommerzielle Nutzung!

IndexTTS2: Emotionale & Dauer-kontrollierte Zero-Shot-TTS

IndexTTS2 ist ein leistungsstarkes autoregressives Zero-Shot-Text-zu-Sprache-System, das eine beispiellose Kontrolle über die Sprachgenerierung ermöglicht. Mit fortschrittlichem Emotionsausdruck, präziser Dauer-Steuerung und Sofort-Stimmklonfunktionen liefert es natürliche, ausdrucksstarke Sprachsynthese in mehreren Sprachen. Unter Apache 2.0 Lizenz veröffentlicht, ist es vollständig Open-Source und bereit für den kommerziellen Einsatz.

Lass die Kugeln fliegen

Kaiserinnen im Palast

Kaiserinnen im Palast 2

Play demo

Lass die Kugeln fliegen - Dauer-Kontroll-Demo

Demonstration präziser Sprachdauer-Steuerung mit Erhalt des emotionalen Ausdrucks

Dauer-Kontrolle

Präzise Zeitanpassung

Emotions-Kontrolle

Natürlicher emotionaler Ausdruck

Zero-Shot

Kein Training erforderlich

IndexTTS2 Live-Demo ausprobieren

Erleben Sie IndexTTS2s leistungsstarke Stimmklon- und Emotionskontrollfunktionen in Echtzeit. Generieren Sie natürliche, ausdrucksstarke Sprache mit präziser Dauer-Kontrolle und mehrsprachiger Unterstützung. Klonen Sie jede Stimme sofort ohne Training.

Bewertungen

Was die Leute über IndexTTS2 sagen

Hören Sie, was Forscher, Entwickler und KI-Enthusiasten über IndexTTS2s bahnbrechende Stimmklon- und Emotionskontrollfunktionen sagen

Index TTS2 – Ein SEHR emotionales TTS mit Stimmklonen!

Diese Open-Source-Modelle werden wahnsinnig gut. Wirklich beeindruckt.

Fantastisches neues KI-Text-zu-Sprache-Modell veröffentlicht! Index TTS 2 erste Eindrücke

Higgs Audio bleibt ungeschlagen. Hoffentlich wird ihr v3-trainiertes Modell steuerbare Emotionen bieten.

Neue Top-KI-Text-zu-Sprache ist da! Kostenlos & unzensiert. IndexTTS2-Tutorial

"Hallo, hier ist Joes Mutter, er fühlt sich heute nicht wohl und muss zu Hause bleiben, bis er sich erholt hat."

Leistungsvergleich mit führenden TTS-Modellen

Sehen Sie, wie IndexTTS2 im Vergleich zu state-of-the-art Text-zu-Sprache-Modellen bei Emotionsausdruck, Dauer-Genauigkeit, Stimmklon-Qualität und mehrsprachiger Unterstützung abschneidet.

Metric	IndexTTS2	OpenAI TTS	ElevenLabs	Azure TTS	F5-TTS	CosyVoice
WER (Word Error Rate)%	1.01	N/A	N/A	N/A	1.56	1.45
Speaker Similarity	0.87	N/A	N/A	N/A	0.82	0.85
MOS (Naturalness)/5.0	4.54	4.2	4.3	4.3	4.19	4.12
Emotion Control	✓	✗	Limited	Limited	✗	✓
Duration Control	✓	✗	✗	✗	Limited	Limited
Zero-Shot Cloning	✓	✓	✓	✗	✓	✓
Supported Languages	2+	57	29	119	2	Multi
RTF (Real-Time Factor)	N/A	0.20	0.15	N/A	0.15	N/A

Comparative performance across key TTS quality metrics based on academic benchmarks

Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)

Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.

✓ = Supported | ✗ = Not Supported | Limited = Partial Support

Lokale Bereitstellung

Schnellstartanleitung

Deployen Sie IndexTTS2 in wenigen Minuten lokal mit unserem umfassenden Schritt-für-Schritt-Leitfaden. Beginnen Sie mit der Generierung natürlicher, emotionaler Sprache mit Zero-Shot-Stimmklonfunktionen.

Python-API-Beispiel

from indextts import IndexTTS

# Initialize the model
tts = IndexTTS()

# Generate speech from text
audio = tts.synthesize(
    text="Hello world! Welcome to IndexTTS2.",
    voice_reference="path/to/reference.wav",  # Optional: clone a voice
    emotion="neutral",  # Control emotion: happy, sad, angry, neutral
    speed=1.0,  # Adjust speaking speed
    language="en"  # Supported: en, zh
)

# Save the output
audio.save("output.wav")

Dokumentation

Vollständige Anleitungen und API-Referenz

GitHub-Repository

Quellcode und Beispiele

Community

Hilfe erhalten und Ideen teilen

Hauptfunktionen von IndexTTS2

Entdecken Sie die leistungsstarken Funktionen, die IndexTTS2 zur idealen Wahl für ausdrucksstarke, steuerbare Text-zu-Sprache-Generierung machen.

Zero-Shot-Stimmklonen

Klonen Sie sofort jede Stimme aus nur wenigen Sekunden Audio ohne Training. Erzielt hochgetreue Stimmwiedergabe mit Sprecher-Konsistenz über verschiedene Inhalte und Emotionen hinweg.

Emotionsausdruckskontrolle

Entkoppeln Sie Timbre von Emotion für unabhängige Kontrolle. Verwenden Sie Textbeschreibungen zur Führung des emotionalen Ausdrucks (glücklich, traurig, aufgeregt, wütend) bei gleichzeitiger Beibehaltung der Stimmidentität und Natürlichkeit.

Präzise Dauer-Kontrolle

Erstes autoregressives TTS, das genaue Dauer-Kontrolle mit natürlicher Generierung kombiniert. Erreichen Sie präzises Sprach-Timing ohne Opferung von Ausdrucksstärke oder Prosodie-Qualität.

Mehrsprachige Unterstützung

Native Unterstützung für Chinesisch (Mandarin), Englisch und gemischte Chinesisch-Englische Synthese. Erhält natürliche Aussprache und Intonation über Sprachgrenzen hinweg.

Pinyin-Aussprachekontrolle

Erweiterte Aussprachekontrolle durch Pinyin-Notation für chinesische Texte. Lösen Sie mehrdeutige Aussprachen auf und gewährleisten Sie genaues Zeichen-Lesen in komplexen Kontexten.

Hohe Natürlichkeit & Klarheit

Überlegene Wortfehlerrate (WER) und Emotions-Erhaltung im Vergleich zu bestehenden Modellen. Erreicht menschenähnliche Natürlichkeitsbewertungen mit außergewöhnlicher Klarheit und Verständlichkeit.

Worüber Leute auf X über IndexTTS2 sprechen

Nehmen Sie an der Unterhaltung über IndexTTS2 teil und teilen Sie Ihre Erfahrung mit der Forschungs-Community

How do you make TTS both natural and precisely timed for dubbing or sync? 🎙️⏱️

Meet IndexTTS2—an autoregressive model with novel duration control:

- Mode 1: specify token count → exact speech length
- Mode 2: free AR generation → natural prosody preserved

✨ Extra features:… pic.twitter.com/nvmq05xU5Z
— 机器之心 JIQIZHIXIN (@jiqizhixin) September 19, 2025

🗣️✨Bilibili just dropped IndexTTS2, and it might be the most expressive and controllable zero-shot TTS model yet!

It's a breakthrough for autoregressive models, bringing precise timing and rich emotion to synthesized speech.

Basically, it can produce a voice that sounds like… pic.twitter.com/w625jhRwkq
— 机器之心 JIQIZHIXIN (@jiqizhixin) August 1, 2025

IndexTTS2: New AI text to speech with full emotion control

Free & open-source!

Here's the full tutorial: https://t.co/dzMMT5JvcR pic.twitter.com/LCELPyMwtj
— ⚡AI Search⚡ (@aisearchio) September 18, 2025

IndexTTS2, one of the most realistic and expressive text-to-speech model so far.

Fully local with open weights.

Zero-shot voice cloning. You just provide one audio file (in any language) and it will extremely accurately clone the voice style and rhythm. It sounds much more… pic.twitter.com/6ixAtbCrnn
— Rohan Paul (@rohanpaul_ai) July 14, 2025

⭐ Today’s China AI Native Industry Insights include:
1. MoonshotAI releases Kimi K2: Open-Source Agentic Intelligence at Scale

2. Exciting Upgrade: Alibaba's Qwen Chat Launches Enhanced Features!

3. Bilibili launches IndexTTS2: Revolutionizing Voice Synthesis with Emotion… pic.twitter.com/ov85VOyVjy
— AI Native Foundation (@AINativeF) July 15, 2025

来看 Index TTS2 和 VibeVoice-7B 哪个效果好？

需要注意的是，生成长音频的时候，这两个模型都会抖动，所以解决方案是，可以多生成一块，然后反复生成把有瑕疵的部分裁剪掉。

这两个 workflow 都是开源的：
VibeVoice: https://t.co/RV3qYA9UkP
IndexTTS2: https://t.co/ptagLxcZLQ… pic.twitter.com/o0CSUCdPhw
— karminski-牙医 (@karminski3) September 19, 2025

B站上大分！IndexTTS2 名副其实的好！
不仅能克隆音色，而且能还原情感和语调，这一点比11Labs还要强的多。 pic.twitter.com/aT03Yk0dac
— Gorden Sun (@Gorden_Sun) September 11, 2025