开源项目🚀 Apache 2.0 许可证 - 免费商用!

IndexTTS2:情感与时长可控的零样本语音合成系统

IndexTTS2 是一个强大的自回归零样本文本转语音系统,实现了前所未有的语音生成控制能力。通过先进的情感表达、精确的时长控制和即时语音克隆功能,它可以生成自然、富有表现力的多语言语音合成。采用 Apache 2.0 许可证发布,完全开源且可用于商业用途。

让子弹飞

甄嬛传

甄嬛传 2

Play demo

让子弹飞 - 时长控制演示

展示精确的语音时长控制能力,同时保持情感表达

时长控制

精确的时间调整

情感控制

自然的情感表达

零样本

无需训练

IndexTTS2 在线演示

实时体验 IndexTTS2 强大的语音克隆和情感控制功能。生成自然、富有表现力的语音,支持精确的时长控制和多语言合成。无需训练即可即时克隆任何声音。

用户评价

大家如何评价 IndexTTS2

听听研究人员、开发者和 AI 爱好者对 IndexTTS2 突破性语音克隆和情感控制功能的评价

Index TTS2 – 情感表达超强的 TTS 语音克隆!

这些开源模型真是越来越强大了。真心印象深刻。

全新 AI 文本转语音模型发布!Index TTS 2 初步体验

Higgs Audio 依然无可匹敌。希望他们的 v3 训练模型能够实现可控的情感表达。

新顶级 AI 文本转语音来了!免费且无审查。IndexTTS2 教程

"嗨,我是乔的妈妈,他今天身体不舒服,需要在家休息直到康复。"

与主流 TTS 模型性能对比

了解 IndexTTS2 在情感表达、时长准确性、语音克隆质量和多语言支持方面与最先进的文本转语音模型的对比表现。

Metric	IndexTTS2	OpenAI TTS	ElevenLabs	Azure TTS	F5-TTS	CosyVoice
WER (Word Error Rate)%	1.01	N/A	N/A	N/A	1.56	1.45
Speaker Similarity	0.87	N/A	N/A	N/A	0.82	0.85
MOS (Naturalness)/5.0	4.54	4.2	4.3	4.3	4.19	4.12
Emotion Control	✓	✗	Limited	Limited	✗	✓
Duration Control	✓	✗	✗	✗	Limited	Limited
Zero-Shot Cloning	✓	✓	✓	✗	✓	✓
Supported Languages	2+	57	29	119	2	Multi
RTF (Real-Time Factor)	N/A	0.20	0.15	N/A	0.15	N/A

Comparative performance across key TTS quality metrics based on academic benchmarks

Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)

Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.

✓ = Supported | ✗ = Not Supported | Limited = Partial Support

本地部署

快速开始指南

通过我们详尽的分步指南,在几分钟内完成 IndexTTS2 的本地部署。开始生成具有零样本语音克隆功能的自然、情感化语音。

Python API 示例

from indextts import IndexTTS

# Initialize the model
tts = IndexTTS()

# Generate speech from text
audio = tts.synthesize(
    text="Hello world! Welcome to IndexTTS2.",
    voice_reference="path/to/reference.wav",  # Optional: clone a voice
    emotion="neutral",  # Control emotion: happy, sad, angry, neutral
    speed=1.0,  # Adjust speaking speed
    language="en"  # Supported: en, zh
)

# Save the output
audio.save("output.wav")

文档

完整的指南和 API 参考

GitHub 仓库

源代码和示例

社区

获取帮助和分享想法

IndexTTS2 的核心功能

探索使 IndexTTS2 成为富有表现力、可控文本转语音生成理想选择的强大功能。

零样本语音克隆

仅需几秒钟音频即可即时克隆任何声音,无需训练。在不同内容和情感中实现高保真语音重现和说话人一致性。

情感表达控制

将音色与情感解耦以实现独立控制。使用文本描述引导情感表达(开心、悲伤、兴奋、愤怒),同时保持声音身份和自然度。

精确时长控制

首个将准确时长控制与自然生成相结合的自回归 TTS。实现精确的语音时间控制,而不牺牲表现力或韵律质量。

多语言支持

原生支持中文(普通话)、英文和中英文混合合成。跨语言边界保持自然的发音和语调。

拼音发音控制

通过拼音标注对中文文本进行高级发音控制。解决歧义发音并确保复杂上下文中的准确汉字朗读。

高自然度与清晰度

与现有模型相比,具有更优的词错误率(WER)和情感保持度。实现类人自然度评分,具有卓越的清晰度和可懂度。

大家在 X 上谈论 IndexTTS2

加入关于 IndexTTS2 的对话,与研究社区分享您的体验

How do you make TTS both natural and precisely timed for dubbing or sync? 🎙️⏱️

Meet IndexTTS2—an autoregressive model with novel duration control:

- Mode 1: specify token count → exact speech length
- Mode 2: free AR generation → natural prosody preserved

✨ Extra features:… pic.twitter.com/nvmq05xU5Z
— 机器之心 JIQIZHIXIN (@jiqizhixin) September 19, 2025

🗣️✨Bilibili just dropped IndexTTS2, and it might be the most expressive and controllable zero-shot TTS model yet!

It's a breakthrough for autoregressive models, bringing precise timing and rich emotion to synthesized speech.

Basically, it can produce a voice that sounds like… pic.twitter.com/w625jhRwkq
— 机器之心 JIQIZHIXIN (@jiqizhixin) August 1, 2025

IndexTTS2: New AI text to speech with full emotion control

Free & open-source!

Here's the full tutorial: https://t.co/dzMMT5JvcR pic.twitter.com/LCELPyMwtj
— ⚡AI Search⚡ (@aisearchio) September 18, 2025

IndexTTS2, one of the most realistic and expressive text-to-speech model so far.

Fully local with open weights.

Zero-shot voice cloning. You just provide one audio file (in any language) and it will extremely accurately clone the voice style and rhythm. It sounds much more… pic.twitter.com/6ixAtbCrnn
— Rohan Paul (@rohanpaul_ai) July 14, 2025

⭐ Today’s China AI Native Industry Insights include:
1. MoonshotAI releases Kimi K2: Open-Source Agentic Intelligence at Scale

2. Exciting Upgrade: Alibaba's Qwen Chat Launches Enhanced Features!

3. Bilibili launches IndexTTS2: Revolutionizing Voice Synthesis with Emotion… pic.twitter.com/ov85VOyVjy
— AI Native Foundation (@AINativeF) July 15, 2025

来看 Index TTS2 和 VibeVoice-7B 哪个效果好？

需要注意的是，生成长音频的时候，这两个模型都会抖动，所以解决方案是，可以多生成一块，然后反复生成把有瑕疵的部分裁剪掉。

这两个 workflow 都是开源的：
VibeVoice: https://t.co/RV3qYA9UkP
IndexTTS2: https://t.co/ptagLxcZLQ… pic.twitter.com/o0CSUCdPhw
— karminski-牙医 (@karminski3) September 19, 2025

B站上大分！IndexTTS2 名副其实的好！
不仅能克隆音色，而且能还原情感和语调，这一点比11Labs还要强的多。 pic.twitter.com/aT03Yk0dac
— Gorden Sun (@Gorden_Sun) September 11, 2025

IndexTTS2:情感与时长可控的零样本语音合成系统

IndexTTS2 在线演示

大家如何评价 IndexTTS2

Index TTS2 – 情感表达超强的 TTS 语音克隆!

全新 AI 文本转语音模型发布!Index TTS 2 初步体验

新顶级 AI 文本转语音来了!免费且无审查。IndexTTS2 教程

与主流 TTS 模型性能对比

快速开始指南

Python API 示例

文档

GitHub 仓库

社区

IndexTTS2 的核心功能

零样本语音克隆

情感表达控制

精确时长控制

多语言支持

拼音发音控制

高自然度与清晰度

大家在 X 上谈论 IndexTTS2

常见问题

什么是 IndexTTS2,它是如何工作的?

IndexTTS2 支持哪些语言?

如何使用 IndexTTS2 API?

硬件要求是什么?

IndexTTS2 与其他 TTS 模型相比有哪些优势?

IndexTTS2 是否开源并可商用?

如何在本地部署 IndexTTS2?

IndexTTS2 的最佳使用场景是什么?