オープンソース🚀 Apache 2.0ライセンス - 商用利用無料!

IndexTTS2: 感情と持続時間制御可能なゼロショットTTS

IndexTTS2は、音声生成における前例のない制御を実現する強力な自己回帰ゼロショットテキスト読み上げシステムです。高度な感情表現、正確な持続時間制御、瞬時の音声クローニング機能により、複数の言語で自然で表現豊かな音声合成を実現します。Apache 2.0ライセンスでリリースされ、完全にオープンソースで商用利用可能です。

譲弾飛 - 持続時間制御デモ

感情表現を保ちながら正確な音声持続時間制御を実証

持続時間制御

正確なタイミング調整

感情制御

自然な感情表現

ゼロショット

トレーニング不要

IndexTTS2ライブデモを試す

IndexTTS2の強力な音声クローニングと感情制御機能をリアルタイムで体験してください。正確な持続時間制御と多言語サポートで、自然で表現豊かな音声を生成します。トレーニングなしでどんな音声も瞬時にクローニングできます。

Loading IndexTTS2...

レビュー

IndexTTS2について人々が語っていること

研究者、開発者、AI愛好家がIndexTTS2の画期的な音声クローニングと感情制御機能について語っていることを聞いてください

Index TTS2 – 非常に感情豊かなTTS音声クローニング!

Index TTS2 – 非常に感情豊かなTTS音声クローニング!

これらのオープンソースモデルはどんどん良くなっています。本当に感銘を受けました。

素晴らしい新しいAIテキスト読み上げモデルがリリース!Index TTS 2の第一印象

素晴らしい新しいAIテキスト読み上げモデルがリリース!Index TTS 2の第一印象

Higgs Audioは依然として無敵です。彼らのv3トレーニングモデルが制御可能な感情を搭載することを願っています。

新しいトップAIテキスト読み上げが登場!無料で検閲なし。IndexTTS2チュートリアル

新しいトップAIテキスト読み上げが登場!無料で検閲なし。IndexTTS2チュートリアル

「こんにちは、ジョーの母親です。彼は今日体調が悪く、元気になるまで学校を休む必要があります。」

主要TTSモデルとの性能比較

感情表現、持続時間精度、音声クローニング品質、多言語サポートにおいて、IndexTTS2が最先端のテキスト読み上げモデルとどのように競合しているかをご覧ください。

MetricIndexTTS2OpenAI TTSElevenLabsAzure TTSF5-TTSCosyVoice
WER (Word Error Rate)%
1.01
N/A
N/A
N/A
1.56
1.45
Speaker Similarity
0.87
N/A
N/A
N/A
0.82
0.85
MOS (Naturalness)/5.0
4.54
4.2
4.3
4.3
4.19
4.12
Emotion Control
Limited
Limited
Duration Control
Limited
Limited
Zero-Shot Cloning
Supported Languages
2+
57
29
119
2
Multi
RTF (Real-Time Factor)
N/A
0.20
0.15
N/A
0.15
N/A

Comparative performance across key TTS quality metrics based on academic benchmarks

Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)

Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.

✓ = Supported | ✗ = Not Supported | Limited = Partial Support

ローカルデプロイ

クイックスタートガイド

包括的なステップバイステップガイドで、IndexTTS2を数分でローカルにデプロイしてください。ゼロショット音声クローニング機能で自然で感情的な音声生成を開始しましょう。

Python APIの例

from indextts import IndexTTS

# Initialize the model
tts = IndexTTS()

# Generate speech from text
audio = tts.synthesize(
    text="Hello world! Welcome to IndexTTS2.",
    voice_reference="path/to/reference.wav",  # Optional: clone a voice
    emotion="neutral",  # Control emotion: happy, sad, angry, neutral
    speed=1.0,  # Adjust speaking speed
    language="en"  # Supported: en, zh
)

# Save the output
audio.save("output.wav")

ドキュメント

完全なガイドとAPIリファレンス

GitHubリポジトリ

ソースコードとサンプル

コミュニティ

サポートを受けたりアイデアを共有したりする

IndexTTS2の主要機能

IndexTTS2を表現豊かで制御可能なテキスト読み上げ生成の理想的な選択にする強力な機能を発見してください。

ゼロショット音声クローニング

トレーニングなしでわずか数秒のオーディオからどんな音声も瞬時にクローニング。さまざまなコンテンツと感情にわたって話者の一貫性を持つ高忠実度音声再生を実現します。

感情表現制御

独立制御のために音色と感情を分離。音声アイデンティティと自然さを維持しながら、テキスト記述を使用して感情表現(嬉しい、悲しい、興奮、怒り)をガイドします。

正確な持続時間制御

正確な持続時間制御と自然な生成を組み合わせた初の自己回帰TTS。表現力やプロソディの質を犠牲にすることなく、正確な音声タイミングを実現します。

多言語サポート

中国語(普通話)、英語、中英混合合成のネイティブサポート。言語の境界を越えて自然な発音とイントネーションを維持します。

拼音発音制御

中国語テキストの拼音表記による高度な発音制御。曖昧な発音を解決し、複雑な文脈で正確な文字読みを保証します。

高い自然さと明瞭さ

既存モデルと比較して優れた単語エラー率(WER)と感情保存。例外的な明瞭さと理解しやすさで人間のような自然さ評価を達成します。

Xで人々がIndexTTS2について語っていること

IndexTTS2についての会話に参加し、研究コミュニティとあなたの経験を共有してください

よくある質問