オープンソース🚀 Apache 2.0ライセンス - 商用利用無料!

IndexTTS2: 感情と持続時間制御可能なゼロショットTTS

IndexTTS2は、音声生成における前例のない制御を実現する強力な自己回帰ゼロショットテキスト読み上げシステムです。高度な感情表現、正確な持続時間制御、瞬時の音声クローニング機能により、複数の言語で自然で表現豊かな音声合成を実現します。Apache 2.0ライセンスでリリースされ、完全にオープンソースで商用利用可能です。

譲弾飛

甄嬛伝

甄嬛伝 2

Play demo

譲弾飛 - 持続時間制御デモ

感情表現を保ちながら正確な音声持続時間制御を実証

持続時間制御

正確なタイミング調整

感情制御

自然な感情表現

ゼロショット

トレーニング不要

IndexTTS2ライブデモを試す

IndexTTS2の強力な音声クローニングと感情制御機能をリアルタイムで体験してください。正確な持続時間制御と多言語サポートで、自然で表現豊かな音声を生成します。トレーニングなしでどんな音声も瞬時にクローニングできます。

レビュー

IndexTTS2について人々が語っていること

研究者、開発者、AI愛好家がIndexTTS2の画期的な音声クローニングと感情制御機能について語っていることを聞いてください

Index TTS2 – 非常に感情豊かなTTS音声クローニング!

これらのオープンソースモデルはどんどん良くなっています。本当に感銘を受けました。

素晴らしい新しいAIテキスト読み上げモデルがリリース!Index TTS 2の第一印象

Higgs Audioは依然として無敵です。彼らのv3トレーニングモデルが制御可能な感情を搭載することを願っています。

新しいトップAIテキスト読み上げが登場!無料で検閲なし。IndexTTS2チュートリアル

「こんにちは、ジョーの母親です。彼は今日体調が悪く、元気になるまで学校を休む必要があります。」

主要TTSモデルとの性能比較

感情表現、持続時間精度、音声クローニング品質、多言語サポートにおいて、IndexTTS2が最先端のテキスト読み上げモデルとどのように競合しているかをご覧ください。

Metric	IndexTTS2	OpenAI TTS	ElevenLabs	Azure TTS	F5-TTS	CosyVoice
WER (Word Error Rate)%	1.01	N/A	N/A	N/A	1.56	1.45
Speaker Similarity	0.87	N/A	N/A	N/A	0.82	0.85
MOS (Naturalness)/5.0	4.54	4.2	4.3	4.3	4.19	4.12
Emotion Control	✓	✗	Limited	Limited	✗	✓
Duration Control	✓	✗	✗	✗	Limited	Limited
Zero-Shot Cloning	✓	✓	✓	✗	✓	✓
Supported Languages	2+	57	29	119	2	Multi
RTF (Real-Time Factor)	N/A	0.20	0.15	N/A	0.15	N/A

Comparative performance across key TTS quality metrics based on academic benchmarks

Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)

Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.

✓ = Supported | ✗ = Not Supported | Limited = Partial Support

ローカルデプロイ

クイックスタートガイド

包括的なステップバイステップガイドで、IndexTTS2を数分でローカルにデプロイしてください。ゼロショット音声クローニング機能で自然で感情的な音声生成を開始しましょう。

Python APIの例

from indextts import IndexTTS

# Initialize the model
tts = IndexTTS()

# Generate speech from text
audio = tts.synthesize(
    text="Hello world! Welcome to IndexTTS2.",
    voice_reference="path/to/reference.wav",  # Optional: clone a voice
    emotion="neutral",  # Control emotion: happy, sad, angry, neutral
    speed=1.0,  # Adjust speaking speed
    language="en"  # Supported: en, zh
)

# Save the output
audio.save("output.wav")

ドキュメント

完全なガイドとAPIリファレンス

GitHubリポジトリ

ソースコードとサンプル

コミュニティ

サポートを受けたりアイデアを共有したりする

IndexTTS2の主要機能

IndexTTS2を表現豊かで制御可能なテキスト読み上げ生成の理想的な選択にする強力な機能を発見してください。

ゼロショット音声クローニング

トレーニングなしでわずか数秒のオーディオからどんな音声も瞬時にクローニング。さまざまなコンテンツと感情にわたって話者の一貫性を持つ高忠実度音声再生を実現します。

感情表現制御

独立制御のために音色と感情を分離。音声アイデンティティと自然さを維持しながら、テキスト記述を使用して感情表現(嬉しい、悲しい、興奮、怒り)をガイドします。

正確な持続時間制御

正確な持続時間制御と自然な生成を組み合わせた初の自己回帰TTS。表現力やプロソディの質を犠牲にすることなく、正確な音声タイミングを実現します。

多言語サポート

中国語(普通話)、英語、中英混合合成のネイティブサポート。言語の境界を越えて自然な発音とイントネーションを維持します。

拼音発音制御

中国語テキストの拼音表記による高度な発音制御。曖昧な発音を解決し、複雑な文脈で正確な文字読みを保証します。

高い自然さと明瞭さ

既存モデルと比較して優れた単語エラー率(WER)と感情保存。例外的な明瞭さと理解しやすさで人間のような自然さ評価を達成します。

Xで人々がIndexTTS2について語っていること

IndexTTS2についての会話に参加し、研究コミュニティとあなたの経験を共有してください

How do you make TTS both natural and precisely timed for dubbing or sync? 🎙️⏱️

Meet IndexTTS2—an autoregressive model with novel duration control:

- Mode 1: specify token count → exact speech length
- Mode 2: free AR generation → natural prosody preserved

✨ Extra features:… pic.twitter.com/nvmq05xU5Z
— 机器之心 JIQIZHIXIN (@jiqizhixin) September 19, 2025

🗣️✨Bilibili just dropped IndexTTS2, and it might be the most expressive and controllable zero-shot TTS model yet!

It's a breakthrough for autoregressive models, bringing precise timing and rich emotion to synthesized speech.

Basically, it can produce a voice that sounds like… pic.twitter.com/w625jhRwkq
— 机器之心 JIQIZHIXIN (@jiqizhixin) August 1, 2025

IndexTTS2: New AI text to speech with full emotion control

Free & open-source!

Here's the full tutorial: https://t.co/dzMMT5JvcR pic.twitter.com/LCELPyMwtj
— ⚡AI Search⚡ (@aisearchio) September 18, 2025

IndexTTS2, one of the most realistic and expressive text-to-speech model so far.

Fully local with open weights.

Zero-shot voice cloning. You just provide one audio file (in any language) and it will extremely accurately clone the voice style and rhythm. It sounds much more… pic.twitter.com/6ixAtbCrnn
— Rohan Paul (@rohanpaul_ai) July 14, 2025

⭐ Today’s China AI Native Industry Insights include:
1. MoonshotAI releases Kimi K2: Open-Source Agentic Intelligence at Scale

2. Exciting Upgrade: Alibaba's Qwen Chat Launches Enhanced Features!

3. Bilibili launches IndexTTS2: Revolutionizing Voice Synthesis with Emotion… pic.twitter.com/ov85VOyVjy
— AI Native Foundation (@AINativeF) July 15, 2025

来看 Index TTS2 和 VibeVoice-7B 哪个效果好？

需要注意的是，生成长音频的时候，这两个模型都会抖动，所以解决方案是，可以多生成一块，然后反复生成把有瑕疵的部分裁剪掉。

这两个 workflow 都是开源的：
VibeVoice: https://t.co/RV3qYA9UkP
IndexTTS2: https://t.co/ptagLxcZLQ… pic.twitter.com/o0CSUCdPhw
— karminski-牙医 (@karminski3) September 19, 2025

B站上大分！IndexTTS2 名副其实的好！
不仅能克隆音色，而且能还原情感和语调，这一点比11Labs还要强的多。 pic.twitter.com/aT03Yk0dac
— Gorden Sun (@Gorden_Sun) September 11, 2025

IndexTTS2: 感情と持続時間制御可能なゼロショットTTS

IndexTTS2ライブデモを試す

IndexTTS2について人々が語っていること

Index TTS2 – 非常に感情豊かなTTS音声クローニング!

素晴らしい新しいAIテキスト読み上げモデルがリリース!Index TTS 2の第一印象

新しいトップAIテキスト読み上げが登場!無料で検閲なし。IndexTTS2チュートリアル

主要TTSモデルとの性能比較

クイックスタートガイド

Python APIの例

ドキュメント

GitHubリポジトリ

コミュニティ

IndexTTS2の主要機能

ゼロショット音声クローニング

感情表現制御

正確な持続時間制御

多言語サポート

拼音発音制御

高い自然さと明瞭さ

Xで人々がIndexTTS2について語っていること

よくある質問

IndexTTS2とは何で、どのように機能しますか?

IndexTTS2はどの言語をサポートしていますか?

IndexTTS2 APIの使い方は?

ハードウェア要件は何ですか?

IndexTTS2は他のTTSモデルと比較してどのような利点がありますか?

IndexTTS2は商用利用のためにオープンソースですか?

IndexTTS2をローカルにデプロイする方法は?

IndexTTS2の最適なユースケースは何ですか?