IndexTTS2:情感與時長可控的零樣本語音合成系統
IndexTTS2 是一個強大的自迴歸零樣本文字轉語音系統,實現了前所未有的語音生成控制能力。透過先進的情感表達、精確的時長控制和即時語音克隆功能,它可以生成自然、富有表現力的多語言語音合成。採用 Apache 2.0 授權發布,完全開源且可用於商業用途。
讓子彈飛 - 時長控制示範
展示精確的語音時長控制能力,同時保持情感表達
時長控制
精確的時間調整
情感控制
自然的情感表達
零樣本
無需訓練
IndexTTS2 線上示範
即時體驗 IndexTTS2 強大的語音克隆和情感控制功能。生成自然、富有表現力的語音,支援精確的時長控制和多語言合成。無需訓練即可即時克隆任何聲音。
大家如何評價 IndexTTS2
聽聽研究人員、開發者和 AI 愛好者對 IndexTTS2 突破性語音克隆和情感控制功能的評價

Index TTS2 – 情感表達超強的 TTS 語音克隆!
這些開源模型真是越來越強大了。真心印象深刻。

全新 AI 文字轉語音模型發布!Index TTS 2 初步體驗
Higgs Audio 依然無可匹敵。希望他們的 v3 訓練模型能夠實現可控的情感表達。

新頂級 AI 文字轉語音來了!免費且無審查。IndexTTS2 教學
「嗨,我是喬的媽媽,他今天身體不舒服,需要在家休息直到康復。」
與主流 TTS 模型效能對比
瞭解 IndexTTS2 在情感表達、時長準確性、語音克隆品質和多語言支援方面與最先進的文字轉語音模型的對比表現。
| Metric | IndexTTS2 | OpenAI TTS | ElevenLabs | Azure TTS | F5-TTS | CosyVoice |
|---|---|---|---|---|---|---|
| WER (Word Error Rate)% | 1.01 | N/A | N/A | N/A | 1.56 | 1.45 |
| Speaker Similarity | 0.87 | N/A | N/A | N/A | 0.82 | 0.85 |
| MOS (Naturalness)/5.0 | 4.54 | 4.2 | 4.3 | 4.3 | 4.19 | 4.12 |
| Emotion Control | ✓ | ✗ | Limited | Limited | ✗ | ✓ |
| Duration Control | ✓ | ✗ | ✗ | ✗ | Limited | Limited |
| Zero-Shot Cloning | ✓ | ✓ | ✓ | ✗ | ✓ | ✓ |
| Supported Languages | 2+ | 57 | 29 | 119 | 2 | Multi |
| RTF (Real-Time Factor) | N/A | 0.20 | 0.15 | N/A | 0.15 | N/A |
Comparative performance across key TTS quality metrics based on academic benchmarks
Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)
Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.
✓ = Supported | ✗ = Not Supported | Limited = Partial Support
快速開始指南
透過我們詳盡的分步指南,在幾分鐘內完成 IndexTTS2 的本機部署。開始生成具有零樣本語音克隆功能的自然、情感化語音。
Python API 範例
from indextts import IndexTTS
# Initialize the model
tts = IndexTTS()
# Generate speech from text
audio = tts.synthesize(
text="Hello world! Welcome to IndexTTS2.",
voice_reference="path/to/reference.wav", # Optional: clone a voice
emotion="neutral", # Control emotion: happy, sad, angry, neutral
speed=1.0, # Adjust speaking speed
language="en" # Supported: en, zh
)
# Save the output
audio.save("output.wav")文件
完整的指南和 API 參考
GitHub 儲存庫
原始碼和範例
社群
獲取幫助並分享想法
IndexTTS2 的核心功能
探索使 IndexTTS2 成為富有表現力、可控文字轉語音生成理想選擇的強大功能。
零樣本語音克隆
僅需幾秒鐘音訊即可即時克隆任何聲音,無需訓練。在不同內容和情感中實現高保真語音重現和說話人一致性。
情感表達控制
將音色與情感解耦以實現獨立控制。使用文字描述引導情感表達(開心、悲傷、興奮、憤怒),同時保持聲音身份和自然度。
精確時長控制
首個將準確時長控制與自然生成相結合的自迴歸 TTS。實現精確的語音時間控制,而不犧牲表現力或韻律品質。
多語言支援
原生支援中文(普通話)、英文和中英文混合合成。跨語言邊界保持自然的發音和語調。
拼音發音控制
透過拼音標註對中文文字進行進階發音控制。解決歧義發音並確保複雜上下文中的準確漢字朗讀。
高自然度與清晰度
與現有模型相比,具有更優的詞錯誤率(WER)和情感保持度。實現類人自然度評分,具有卓越的清晰度和可懂度。
大家在 X 上談論 IndexTTS2
加入關於 IndexTTS2 的對話,與研究社群分享您的體驗
How do you make TTS both natural and precisely timed for dubbing or sync? 🎙️⏱️
— 机器之心 JIQIZHIXIN (@jiqizhixin) September 19, 2025
Meet IndexTTS2—an autoregressive model with novel duration control:
- Mode 1: specify token count → exact speech length
- Mode 2: free AR generation → natural prosody preserved
✨ Extra features:… pic.twitter.com/nvmq05xU5Z
🗣️✨Bilibili just dropped IndexTTS2, and it might be the most expressive and controllable zero-shot TTS model yet!
— 机器之心 JIQIZHIXIN (@jiqizhixin) August 1, 2025
It's a breakthrough for autoregressive models, bringing precise timing and rich emotion to synthesized speech.
Basically, it can produce a voice that sounds like… pic.twitter.com/w625jhRwkq
IndexTTS2: New AI text to speech with full emotion control
— ⚡AI Search⚡ (@aisearchio) September 18, 2025
Free & open-source!
Here's the full tutorial: https://t.co/dzMMT5JvcR pic.twitter.com/LCELPyMwtj
IndexTTS2, one of the most realistic and expressive text-to-speech model so far.
— Rohan Paul (@rohanpaul_ai) July 14, 2025
Fully local with open weights.
Zero-shot voice cloning. You just provide one audio file (in any language) and it will extremely accurately clone the voice style and rhythm. It sounds much more… pic.twitter.com/6ixAtbCrnn
⭐ Today’s China AI Native Industry Insights include:
— AI Native Foundation (@AINativeF) July 15, 2025
1. MoonshotAI releases Kimi K2: Open-Source Agentic Intelligence at Scale
2. Exciting Upgrade: Alibaba's Qwen Chat Launches Enhanced Features!
3. Bilibili launches IndexTTS2: Revolutionizing Voice Synthesis with Emotion… pic.twitter.com/ov85VOyVjy
来看 Index TTS2 和 VibeVoice-7B 哪个效果好?
— karminski-牙医 (@karminski3) September 19, 2025
需要注意的是,生成长音频的时候,这两个模型都会抖动,所以解决方案是,可以多生成一块,然后反复生成把有瑕疵的部分裁剪掉。
这两个 workflow 都是开源的:
VibeVoice: https://t.co/RV3qYA9UkP
IndexTTS2: https://t.co/ptagLxcZLQ… pic.twitter.com/o0CSUCdPhw
B站上大分!IndexTTS2 名副其实的好!
— Gorden Sun (@Gorden_Sun) September 11, 2025
不仅能克隆音色,而且能还原情感和语调,这一点比11Labs还要强的多。 pic.twitter.com/aT03Yk0dac
