開源項目🚀 Apache 2.0 授權 - 免費商用!

IndexTTS2:情感與時長可控的零樣本語音合成系統

IndexTTS2 是一個強大的自迴歸零樣本文字轉語音系統,實現了前所未有的語音生成控制能力。透過先進的情感表達、精確的時長控制和即時語音克隆功能,它可以生成自然、富有表現力的多語言語音合成。採用 Apache 2.0 授權發佈,完全開源且可用於商業用途。

讓子彈飛

後宮甄嬛傳

後宮甄嬛傳 2

Play demo

讓子彈飛 - 時長控制示範

展示精確的語音時長控制能力,同時保持情感表達

時長控制

精確的時間調整

情感控制

自然的情感表達

零樣本

無需訓練

IndexTTS2 線上示範

即時體驗 IndexTTS2 強大的語音克隆和情感控制功能。生成自然、富有表現力的語音,支援精確的時長控制和多語言合成。無需訓練即可即時克隆任何聲音。

用戶評價

大家如何評價 IndexTTS2

聽聽研究人員、開發者和 AI 愛好者對 IndexTTS2 突破性語音克隆和情感控制功能的評價

Index TTS2 – 情感表達超強的 TTS 語音克隆!

這些開源模型真是越來越強大了。真心印象深刻。

全新 AI 文字轉語音模型發佈!Index TTS 2 初步體驗

Higgs Audio 依然無可匹敵。希望他們的 v3 訓練模型能夠實現可控的情感表達。

新頂級 AI 文字轉語音來了!免費且無審查。IndexTTS2 教學

「嗨,我是喬的媽媽,他今天身體不舒服,需要在家休息直到康復。」

與主流 TTS 模型效能對比

瞭解 IndexTTS2 在情感表達、時長準確性、語音克隆質素和多語言支援方面與最先進的文字轉語音模型的對比表現。

Metric	IndexTTS2	OpenAI TTS	ElevenLabs	Azure TTS	F5-TTS	CosyVoice
WER (Word Error Rate)%	1.01	N/A	N/A	N/A	1.56	1.45
Speaker Similarity	0.87	N/A	N/A	N/A	0.82	0.85
MOS (Naturalness)/5.0	4.54	4.2	4.3	4.3	4.19	4.12
Emotion Control	✓	✗	Limited	Limited	✗	✓
Duration Control	✓	✗	✗	✗	Limited	Limited
Zero-Shot Cloning	✓	✓	✓	✗	✓	✓
Supported Languages	2+	57	29	119	2	Multi
RTF (Real-Time Factor)	N/A	0.20	0.15	N/A	0.15	N/A

Comparative performance across key TTS quality metrics based on academic benchmarks

Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)

Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.

✓ = Supported | ✗ = Not Supported | Limited = Partial Support

本地部署

快速開始指南

透過我們詳盡的分步指南,在幾分鐘內完成 IndexTTS2 的本地部署。開始生成具有零樣本語音克隆功能的自然、情感化語音。

Python API 範例

from indextts import IndexTTS

# Initialize the model
tts = IndexTTS()

# Generate speech from text
audio = tts.synthesize(
    text="Hello world! Welcome to IndexTTS2.",
    voice_reference="path/to/reference.wav",  # Optional: clone a voice
    emotion="neutral",  # Control emotion: happy, sad, angry, neutral
    speed=1.0,  # Adjust speaking speed
    language="en"  # Supported: en, zh
)

# Save the output
audio.save("output.wav")

文件

完整嘅指南同 API 參考

GitHub 儲存庫

原始碼同範例

社群

獲取幫助同分享想法

IndexTTS2 的核心功能

探索使 IndexTTS2 成為富有表現力、可控文字轉語音生成理想選擇的強大功能。

零樣本語音克隆

僅需幾秒鐘音訊即可即時克隆任何聲音,無需訓練。在不同內容和情感中實現高保真語音重現和說話人一致性。

情感表達控制

將音色與情感解耦以實現獨立控制。使用文字描述引導情感表達(開心、悲傷、興奮、憤怒),同時保持聲音身份和自然度。

精確時長控制

首個將準確時長控制與自然生成相結合的自迴歸 TTS。實現精確的語音時間控制,而不犧牲表現力或韻律質素。

多語言支援

原生支援中文(普通話)、英文和中英文混合合成。跨語言邊界保持自然的發音和語調。

拼音發音控制

透過拼音標註對中文文字進行高級發音控制。解決歧義發音並確保複雜上下文中的準確漢字朗讀。

高自然度與清晰度

與現有模型相比,具有更優的詞錯誤率(WER)和情感保持度。實現類人自然度評分,具有卓越的清晰度和可懂度。

大家在 X 上談論 IndexTTS2

加入關於 IndexTTS2 的對話,與研究社羣分享您的體驗

How do you make TTS both natural and precisely timed for dubbing or sync? 🎙️⏱️

Meet IndexTTS2—an autoregressive model with novel duration control:

- Mode 1: specify token count → exact speech length
- Mode 2: free AR generation → natural prosody preserved

✨ Extra features:… pic.twitter.com/nvmq05xU5Z
— 机器之心 JIQIZHIXIN (@jiqizhixin) September 19, 2025

🗣️✨Bilibili just dropped IndexTTS2, and it might be the most expressive and controllable zero-shot TTS model yet!

It's a breakthrough for autoregressive models, bringing precise timing and rich emotion to synthesized speech.

Basically, it can produce a voice that sounds like… pic.twitter.com/w625jhRwkq
— 机器之心 JIQIZHIXIN (@jiqizhixin) August 1, 2025

IndexTTS2: New AI text to speech with full emotion control

Free & open-source!

Here's the full tutorial: https://t.co/dzMMT5JvcR pic.twitter.com/LCELPyMwtj
— ⚡AI Search⚡ (@aisearchio) September 18, 2025

IndexTTS2, one of the most realistic and expressive text-to-speech model so far.

Fully local with open weights.

Zero-shot voice cloning. You just provide one audio file (in any language) and it will extremely accurately clone the voice style and rhythm. It sounds much more… pic.twitter.com/6ixAtbCrnn
— Rohan Paul (@rohanpaul_ai) July 14, 2025

⭐ Today’s China AI Native Industry Insights include:
1. MoonshotAI releases Kimi K2: Open-Source Agentic Intelligence at Scale

2. Exciting Upgrade: Alibaba's Qwen Chat Launches Enhanced Features!

3. Bilibili launches IndexTTS2: Revolutionizing Voice Synthesis with Emotion… pic.twitter.com/ov85VOyVjy
— AI Native Foundation (@AINativeF) July 15, 2025

来看 Index TTS2 和 VibeVoice-7B 哪个效果好？

需要注意的是，生成长音频的时候，这两个模型都会抖动，所以解决方案是，可以多生成一块，然后反复生成把有瑕疵的部分裁剪掉。

这两个 workflow 都是开源的：
VibeVoice: https://t.co/RV3qYA9UkP
IndexTTS2: https://t.co/ptagLxcZLQ… pic.twitter.com/o0CSUCdPhw
— karminski-牙医 (@karminski3) September 19, 2025

B站上大分！IndexTTS2 名副其实的好！
不仅能克隆音色，而且能还原情感和语调，这一点比11Labs还要强的多。 pic.twitter.com/aT03Yk0dac
— Gorden Sun (@Gorden_Sun) September 11, 2025

IndexTTS2:情感與時長可控的零樣本語音合成系統

IndexTTS2 線上示範

大家如何評價 IndexTTS2

Index TTS2 – 情感表達超強的 TTS 語音克隆!

全新 AI 文字轉語音模型發佈!Index TTS 2 初步體驗

新頂級 AI 文字轉語音來了!免費且無審查。IndexTTS2 教學

與主流 TTS 模型效能對比

快速開始指南

Python API 範例

文件

GitHub 儲存庫

社群

IndexTTS2 的核心功能

零樣本語音克隆

情感表達控制

精確時長控制

多語言支援

拼音發音控制

高自然度與清晰度

大家在 X 上談論 IndexTTS2

常見問題

什麼是 IndexTTS2,它是如何工作的?

IndexTTS2 支援哪些語言?

如何使用 IndexTTS2 API?

硬件要求是什麼?

IndexTTS2 與其他 TTS 模型相比有哪些優勢?

IndexTTS2 是否開源並可商用?

如何在本地部署 IndexTTS2?

IndexTTS2 的最佳使用場景是什麼?