IndexTTS2:情感与时长可控的零样本语音合成系统
IndexTTS2 是一个强大的自回归零样本文本转语音系统,实现了前所未有的语音生成控制能力。通过先进的情感表达、精确的时长控制和即时语音克隆功能,它可以生成自然、富有表现力的多语言语音合成。采用 Apache 2.0 许可证发布,完全开源且可用于商业用途。
让子弹飞 - 时长控制演示
展示精确的语音时长控制能力,同时保持情感表达
时长控制
精确的时间调整
情感控制
自然的情感表达
零样本
无需训练
IndexTTS2 在线演示
实时体验 IndexTTS2 强大的语音克隆和情感控制功能。生成自然、富有表现力的语音,支持精确的时长控制和多语言合成。无需训练即可即时克隆任何声音。
Loading IndexTTS2...
大家如何评价 IndexTTS2
听听研究人员、开发者和 AI 爱好者对 IndexTTS2 突破性语音克隆和情感控制功能的评价

Index TTS2 – 情感表达超强的 TTS 语音克隆!
这些开源模型真是越来越强大了。真心印象深刻。

全新 AI 文本转语音模型发布!Index TTS 2 初步体验
Higgs Audio 依然无可匹敌。希望他们的 v3 训练模型能够实现可控的情感表达。

新顶级 AI 文本转语音来了!免费且无审查。IndexTTS2 教程
"嗨,我是乔的妈妈,他今天身体不舒服,需要在家休息直到康复。"
与主流 TTS 模型性能对比
了解 IndexTTS2 在情感表达、时长准确性、语音克隆质量和多语言支持方面与最先进的文本转语音模型的对比表现。
| Metric | IndexTTS2 | OpenAI TTS | ElevenLabs | Azure TTS | F5-TTS | CosyVoice |
|---|---|---|---|---|---|---|
| WER (Word Error Rate)% | 1.01 | N/A | N/A | N/A | 1.56 | 1.45 |
| Speaker Similarity | 0.87 | N/A | N/A | N/A | 0.82 | 0.85 |
| MOS (Naturalness)/5.0 | 4.54 | 4.2 | 4.3 | 4.3 | 4.19 | 4.12 |
| Emotion Control | ✓ | ✗ | Limited | Limited | ✗ | ✓ |
| Duration Control | ✓ | ✗ | ✗ | ✗ | Limited | Limited |
| Zero-Shot Cloning | ✓ | ✓ | ✓ | ✗ | ✓ | ✓ |
| Supported Languages | 2+ | 57 | 29 | 119 | 2 | Multi |
| RTF (Real-Time Factor) | N/A | 0.20 | 0.15 | N/A | 0.15 | N/A |
Comparative performance across key TTS quality metrics based on academic benchmarks
Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)
Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.
✓ = Supported | ✗ = Not Supported | Limited = Partial Support
快速开始指南
通过我们详尽的分步指南,在几分钟内完成 IndexTTS2 的本地部署。开始生成具有零样本语音克隆功能的自然、情感化语音。
Python API 示例
from indextts import IndexTTS
# Initialize the model
tts = IndexTTS()
# Generate speech from text
audio = tts.synthesize(
text="Hello world! Welcome to IndexTTS2.",
voice_reference="path/to/reference.wav", # Optional: clone a voice
emotion="neutral", # Control emotion: happy, sad, angry, neutral
speed=1.0, # Adjust speaking speed
language="en" # Supported: en, zh
)
# Save the output
audio.save("output.wav")文档
完整的指南和 API 参考
GitHub 仓库
源代码和示例
社区
获取帮助和分享想法
IndexTTS2 的核心功能
探索使 IndexTTS2 成为富有表现力、可控文本转语音生成理想选择的强大功能。
零样本语音克隆
仅需几秒钟音频即可即时克隆任何声音,无需训练。在不同内容和情感中实现高保真语音重现和说话人一致性。
情感表达控制
将音色与情感解耦以实现独立控制。使用文本描述引导情感表达(开心、悲伤、兴奋、愤怒),同时保持声音身份和自然度。
精确时长控制
首个将准确时长控制与自然生成相结合的自回归 TTS。实现精确的语音时间控制,而不牺牲表现力或韵律质量。
多语言支持
原生支持中文(普通话)、英文和中英文混合合成。跨语言边界保持自然的发音和语调。
拼音发音控制
通过拼音标注对中文文本进行高级发音控制。解决歧义发音并确保复杂上下文中的准确汉字朗读。
高自然度与清晰度
与现有模型相比,具有更优的词错误率(WER)和情感保持度。实现类人自然度评分,具有卓越的清晰度和可懂度。
大家在 X 上谈论 IndexTTS2
加入关于 IndexTTS2 的对话,与研究社区分享您的体验
How do you make TTS both natural and precisely timed for dubbing or sync? 🎙️⏱️
— 机器之心 JIQIZHIXIN (@jiqizhixin) September 19, 2025
Meet IndexTTS2—an autoregressive model with novel duration control:
- Mode 1: specify token count → exact speech length
- Mode 2: free AR generation → natural prosody preserved
✨ Extra features:… pic.twitter.com/nvmq05xU5Z
🗣️✨Bilibili just dropped IndexTTS2, and it might be the most expressive and controllable zero-shot TTS model yet!
— 机器之心 JIQIZHIXIN (@jiqizhixin) August 1, 2025
It's a breakthrough for autoregressive models, bringing precise timing and rich emotion to synthesized speech.
Basically, it can produce a voice that sounds like… pic.twitter.com/w625jhRwkq
IndexTTS2: New AI text to speech with full emotion control
— ⚡AI Search⚡ (@aisearchio) September 18, 2025
Free & open-source!
Here's the full tutorial: https://t.co/dzMMT5JvcR pic.twitter.com/LCELPyMwtj
IndexTTS2, one of the most realistic and expressive text-to-speech model so far.
— Rohan Paul (@rohanpaul_ai) July 14, 2025
Fully local with open weights.
Zero-shot voice cloning. You just provide one audio file (in any language) and it will extremely accurately clone the voice style and rhythm. It sounds much more… pic.twitter.com/6ixAtbCrnn
⭐ Today’s China AI Native Industry Insights include:
— AI Native Foundation (@AINativeF) July 15, 2025
1. MoonshotAI releases Kimi K2: Open-Source Agentic Intelligence at Scale
2. Exciting Upgrade: Alibaba's Qwen Chat Launches Enhanced Features!
3. Bilibili launches IndexTTS2: Revolutionizing Voice Synthesis with Emotion… pic.twitter.com/ov85VOyVjy
来看 Index TTS2 和 VibeVoice-7B 哪个效果好?
— karminski-牙医 (@karminski3) September 19, 2025
需要注意的是,生成长音频的时候,这两个模型都会抖动,所以解决方案是,可以多生成一块,然后反复生成把有瑕疵的部分裁剪掉。
这两个 workflow 都是开源的:
VibeVoice: https://t.co/RV3qYA9UkP
IndexTTS2: https://t.co/ptagLxcZLQ… pic.twitter.com/o0CSUCdPhw
B站上大分!IndexTTS2 名副其实的好!
— Gorden Sun (@Gorden_Sun) September 11, 2025
不仅能克隆音色,而且能还原情感和语调,这一点比11Labs还要强的多。 pic.twitter.com/aT03Yk0dac
