IndexTTS2: 感情と持続時間制御可能なゼロショットTTS
IndexTTS2は、音声生成における前例のない制御を実現する強力な自己回帰ゼロショットテキスト読み上げシステムです。高度な感情表現、正確な持続時間制御、瞬時の音声クローニング機能により、複数の言語で自然で表現豊かな音声合成を実現します。Apache 2.0ライセンスでリリースされ、完全にオープンソースで商用利用可能です。
譲弾飛 - 持続時間制御デモ
感情表現を保ちながら正確な音声持続時間制御を実証
持続時間制御
正確なタイミング調整
感情制御
自然な感情表現
ゼロショット
トレーニング不要
IndexTTS2ライブデモを試す
IndexTTS2の強力な音声クローニングと感情制御機能をリアルタイムで体験してください。正確な持続時間制御と多言語サポートで、自然で表現豊かな音声を生成します。トレーニングなしでどんな音声も瞬時にクローニングできます。
Loading IndexTTS2...
IndexTTS2について人々が語っていること
研究者、開発者、AI愛好家がIndexTTS2の画期的な音声クローニングと感情制御機能について語っていることを聞いてください

Index TTS2 – 非常に感情豊かなTTS音声クローニング!
これらのオープンソースモデルはどんどん良くなっています。本当に感銘を受けました。

素晴らしい新しいAIテキスト読み上げモデルがリリース!Index TTS 2の第一印象
Higgs Audioは依然として無敵です。彼らのv3トレーニングモデルが制御可能な感情を搭載することを願っています。

新しいトップAIテキスト読み上げが登場!無料で検閲なし。IndexTTS2チュートリアル
「こんにちは、ジョーの母親です。彼は今日体調が悪く、元気になるまで学校を休む必要があります。」
主要TTSモデルとの性能比較
感情表現、持続時間精度、音声クローニング品質、多言語サポートにおいて、IndexTTS2が最先端のテキスト読み上げモデルとどのように競合しているかをご覧ください。
| Metric | IndexTTS2 | OpenAI TTS | ElevenLabs | Azure TTS | F5-TTS | CosyVoice |
|---|---|---|---|---|---|---|
| WER (Word Error Rate)% | 1.01 | N/A | N/A | N/A | 1.56 | 1.45 |
| Speaker Similarity | 0.87 | N/A | N/A | N/A | 0.82 | 0.85 |
| MOS (Naturalness)/5.0 | 4.54 | 4.2 | 4.3 | 4.3 | 4.19 | 4.12 |
| Emotion Control | ✓ | ✗ | Limited | Limited | ✗ | ✓ |
| Duration Control | ✓ | ✗ | ✗ | ✗ | Limited | Limited |
| Zero-Shot Cloning | ✓ | ✓ | ✓ | ✗ | ✓ | ✓ |
| Supported Languages | 2+ | 57 | 29 | 119 | 2 | Multi |
| RTF (Real-Time Factor) | N/A | 0.20 | 0.15 | N/A | 0.15 | N/A |
Comparative performance across key TTS quality metrics based on academic benchmarks
Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)
Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.
✓ = Supported | ✗ = Not Supported | Limited = Partial Support
クイックスタートガイド
包括的なステップバイステップガイドで、IndexTTS2を数分でローカルにデプロイしてください。ゼロショット音声クローニング機能で自然で感情的な音声生成を開始しましょう。
Python APIの例
from indextts import IndexTTS
# Initialize the model
tts = IndexTTS()
# Generate speech from text
audio = tts.synthesize(
text="Hello world! Welcome to IndexTTS2.",
voice_reference="path/to/reference.wav", # Optional: clone a voice
emotion="neutral", # Control emotion: happy, sad, angry, neutral
speed=1.0, # Adjust speaking speed
language="en" # Supported: en, zh
)
# Save the output
audio.save("output.wav")ドキュメント
完全なガイドとAPIリファレンス
GitHubリポジトリ
ソースコードとサンプル
コミュニティ
サポートを受けたりアイデアを共有したりする
IndexTTS2の主要機能
IndexTTS2を表現豊かで制御可能なテキスト読み上げ生成の理想的な選択にする強力な機能を発見してください。
ゼロショット音声クローニング
トレーニングなしでわずか数秒のオーディオからどんな音声も瞬時にクローニング。さまざまなコンテンツと感情にわたって話者の一貫性を持つ高忠実度音声再生を実現します。
感情表現制御
独立制御のために音色と感情を分離。音声アイデンティティと自然さを維持しながら、テキスト記述を使用して感情表現(嬉しい、悲しい、興奮、怒り)をガイドします。
正確な持続時間制御
正確な持続時間制御と自然な生成を組み合わせた初の自己回帰TTS。表現力やプロソディの質を犠牲にすることなく、正確な音声タイミングを実現します。
多言語サポート
中国語(普通話)、英語、中英混合合成のネイティブサポート。言語の境界を越えて自然な発音とイントネーションを維持します。
拼音発音制御
中国語テキストの拼音表記による高度な発音制御。曖昧な発音を解決し、複雑な文脈で正確な文字読みを保証します。
高い自然さと明瞭さ
既存モデルと比較して優れた単語エラー率(WER)と感情保存。例外的な明瞭さと理解しやすさで人間のような自然さ評価を達成します。
Xで人々がIndexTTS2について語っていること
IndexTTS2についての会話に参加し、研究コミュニティとあなたの経験を共有してください
How do you make TTS both natural and precisely timed for dubbing or sync? 🎙️⏱️
— 机器之心 JIQIZHIXIN (@jiqizhixin) September 19, 2025
Meet IndexTTS2—an autoregressive model with novel duration control:
- Mode 1: specify token count → exact speech length
- Mode 2: free AR generation → natural prosody preserved
✨ Extra features:… pic.twitter.com/nvmq05xU5Z
🗣️✨Bilibili just dropped IndexTTS2, and it might be the most expressive and controllable zero-shot TTS model yet!
— 机器之心 JIQIZHIXIN (@jiqizhixin) August 1, 2025
It's a breakthrough for autoregressive models, bringing precise timing and rich emotion to synthesized speech.
Basically, it can produce a voice that sounds like… pic.twitter.com/w625jhRwkq
IndexTTS2: New AI text to speech with full emotion control
— ⚡AI Search⚡ (@aisearchio) September 18, 2025
Free & open-source!
Here's the full tutorial: https://t.co/dzMMT5JvcR pic.twitter.com/LCELPyMwtj
IndexTTS2, one of the most realistic and expressive text-to-speech model so far.
— Rohan Paul (@rohanpaul_ai) July 14, 2025
Fully local with open weights.
Zero-shot voice cloning. You just provide one audio file (in any language) and it will extremely accurately clone the voice style and rhythm. It sounds much more… pic.twitter.com/6ixAtbCrnn
⭐ Today’s China AI Native Industry Insights include:
— AI Native Foundation (@AINativeF) July 15, 2025
1. MoonshotAI releases Kimi K2: Open-Source Agentic Intelligence at Scale
2. Exciting Upgrade: Alibaba's Qwen Chat Launches Enhanced Features!
3. Bilibili launches IndexTTS2: Revolutionizing Voice Synthesis with Emotion… pic.twitter.com/ov85VOyVjy
来看 Index TTS2 和 VibeVoice-7B 哪个效果好?
— karminski-牙医 (@karminski3) September 19, 2025
需要注意的是,生成长音频的时候,这两个模型都会抖动,所以解决方案是,可以多生成一块,然后反复生成把有瑕疵的部分裁剪掉。
这两个 workflow 都是开源的:
VibeVoice: https://t.co/RV3qYA9UkP
IndexTTS2: https://t.co/ptagLxcZLQ… pic.twitter.com/o0CSUCdPhw
B站上大分!IndexTTS2 名副其实的好!
— Gorden Sun (@Gorden_Sun) September 11, 2025
不仅能克隆音色,而且能还原情感和语调,这一点比11Labs还要强的多。 pic.twitter.com/aT03Yk0dac
