오픈 소스🚀 Apache 2.0 라이선스 - 상업적 사용 무료!

IndexTTS2: 감정 및 길이 제어가 가능한 제로샷 TTS

IndexTTS2는 전례 없는 음성 생성 제어를 달성하는 강력한 자동회귀 제로샷 텍스트 음성 변환 시스템입니다. 고급 감정 표현, 정밀한 길이 제어 및 즉각적인 음성 복제 기능을 통해 여러 언어로 자연스럽고 표현력 있는 음성 합성을 제공합니다. Apache 2.0 라이선스로 출시되어 완전한 오픈소스이며 상업적 사용이 가능합니다.

양탄비

견환전

견환전 2

Play demo

양탄비 - 길이 제어 데모

감정 표현을 유지하면서 정확한 음성 길이 제어 시연

길이 제어

정밀한 타이밍 조정

감정 제어

자연스러운 감정 표현

제로샷

훈련 불필요

IndexTTS2 라이브 데모 체험하기

IndexTTS2의 강력한 음성 복제 및 감정 제어 기능을 실시간으로 경험해보세요. 정밀한 길이 제어와 다국어 지원으로 자연스럽고 표현력 있는 음성을 생성하세요. 훈련 없이 즉시 모든 음성을 복제할 수 있습니다.

리뷰

IndexTTS2에 대한 사람들의 반응

연구자, 개발자 및 AI 애호가들이 IndexTTS2의 획기적인 음성 복제 및 감정 제어 기능에 대해 무엇이라고 말하는지 들어보세요

Index TTS2 – 음성 복제 기능을 갖춘 매우 감성적인 TTS!

이런 오픈소스 모델들이 정말 놀라울 정도로 좋아지고 있습니다. 진심으로 인상 깊습니다.

환상적인 새로운 AI 텍스트 음성 변환 모델 출시! Index TTS 2 첫인상

Higgs Audio는 여전히 무패입니다. 그들의 v3 훈련 모델이 제어 가능한 감정을 특징으로 하길 바랍니다.

새로운 최고의 AI 텍스트 음성 변환이 여기 있습니다! 무료 및 무검열. IndexTTS2 튜토리얼

"안녕하세요, 저는 Joe의 어머니입니다. 그는 오늘 몸이 좋지 않아 회복될 때까지 학교에 가지 않고 집에 있어야 합니다."

주요 TTS 모델과의 성능 비교

감정 표현, 길이 정확도, 음성 복제 품질 및 다국어 지원에서 IndexTTS2가 최첨단 텍스트 음성 변환 모델과 어떻게 경쟁하는지 확인하세요.

Metric	IndexTTS2	OpenAI TTS	ElevenLabs	Azure TTS	F5-TTS	CosyVoice
WER (Word Error Rate)%	1.01	N/A	N/A	N/A	1.56	1.45
Speaker Similarity	0.87	N/A	N/A	N/A	0.82	0.85
MOS (Naturalness)/5.0	4.54	4.2	4.3	4.3	4.19	4.12
Emotion Control	✓	✗	Limited	Limited	✗	✓
Duration Control	✓	✗	✗	✗	Limited	Limited
Zero-Shot Cloning	✓	✓	✓	✗	✓	✓
Supported Languages	2+	57	29	119	2	Multi
RTF (Real-Time Factor)	N/A	0.20	0.15	N/A	0.15	N/A

Comparative performance across key TTS quality metrics based on academic benchmarks

Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)

Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.

✓ = Supported | ✗ = Not Supported | Limited = Partial Support

로컬 배포

빠른 시작 가이드

포괄적인 단계별 가이드를 통해 몇 분 안에 IndexTTS2를 로컬에 배포하세요. 제로샷 음성 복제 기능으로 자연스럽고 감정적인 음성을 생성하기 시작하세요.

Python API 예제

from indextts import IndexTTS

# Initialize the model
tts = IndexTTS()

# Generate speech from text
audio = tts.synthesize(
    text="Hello world! Welcome to IndexTTS2.",
    voice_reference="path/to/reference.wav",  # Optional: clone a voice
    emotion="neutral",  # Control emotion: happy, sad, angry, neutral
    speed=1.0,  # Adjust speaking speed
    language="en"  # Supported: en, zh
)

# Save the output
audio.save("output.wav")

문서

완전한 가이드 및 API 참조

GitHub 저장소

소스 코드 및 예제

커뮤니티

도움을 받고 아이디어를 공유하세요

IndexTTS2의 주요 기능

표현력 있고 제어 가능한 텍스트 음성 변환 생성을 위한 이상적인 선택이 되는 강력한 기능을 발견하세요.

제로샷 음성 복제

훈련 없이 단 몇 초의 오디오만으로 모든 음성을 즉시 복제합니다. 다양한 콘텐츠와 감정에 걸쳐 화자 일관성을 갖춘 높은 충실도의 음성 재현을 달성합니다.

감정 표현 제어

독립적인 제어를 위해 음색과 감정을 분리합니다. 텍스트 설명을 사용하여 음성 정체성과 자연스러움을 유지하면서 감정 표현(행복, 슬픔, 흥분, 분노)을 안내합니다.

정밀한 길이 제어

정확한 길이 제어와 자연스러운 생성을 결합한 최초의 자동회귀 TTS입니다. 표현력이나 운율 품질을 희생하지 않고 정밀한 음성 타이밍을 달성합니다.

다국어 지원

중국어(만다린), 영어 및 중영 혼합 합성을 기본적으로 지원합니다. 언어 경계를 넘어 자연스러운 발음과 억양을 유지합니다.

병음 발음 제어

중국어 텍스트에 대한 병음 표기를 통한 고급 발음 제어. 모호한 발음을 해결하고 복잡한 맥락에서 정확한 문자 읽기를 보장합니다.

높은 자연스러움 및 명료도

기존 모델에 비해 우수한 단어 오류율(WER)과 감정 보존. 뛰어난 명료성과 이해도로 인간과 같은 자연스러움 평가를 달성합니다.

X에서 사람들이 IndexTTS2에 대해 이야기하는 것

IndexTTS2에 대한 대화에 참여하고 연구 커뮤니티와 경험을 공유하세요

How do you make TTS both natural and precisely timed for dubbing or sync? 🎙️⏱️

Meet IndexTTS2—an autoregressive model with novel duration control:

- Mode 1: specify token count → exact speech length
- Mode 2: free AR generation → natural prosody preserved

✨ Extra features:… pic.twitter.com/nvmq05xU5Z
— 机器之心 JIQIZHIXIN (@jiqizhixin) September 19, 2025

🗣️✨Bilibili just dropped IndexTTS2, and it might be the most expressive and controllable zero-shot TTS model yet!

It's a breakthrough for autoregressive models, bringing precise timing and rich emotion to synthesized speech.

Basically, it can produce a voice that sounds like… pic.twitter.com/w625jhRwkq
— 机器之心 JIQIZHIXIN (@jiqizhixin) August 1, 2025

IndexTTS2: New AI text to speech with full emotion control

Free & open-source!

Here's the full tutorial: https://t.co/dzMMT5JvcR pic.twitter.com/LCELPyMwtj
— ⚡AI Search⚡ (@aisearchio) September 18, 2025

IndexTTS2, one of the most realistic and expressive text-to-speech model so far.

Fully local with open weights.

Zero-shot voice cloning. You just provide one audio file (in any language) and it will extremely accurately clone the voice style and rhythm. It sounds much more… pic.twitter.com/6ixAtbCrnn
— Rohan Paul (@rohanpaul_ai) July 14, 2025

⭐ Today’s China AI Native Industry Insights include:
1. MoonshotAI releases Kimi K2: Open-Source Agentic Intelligence at Scale

2. Exciting Upgrade: Alibaba's Qwen Chat Launches Enhanced Features!

3. Bilibili launches IndexTTS2: Revolutionizing Voice Synthesis with Emotion… pic.twitter.com/ov85VOyVjy
— AI Native Foundation (@AINativeF) July 15, 2025

来看 Index TTS2 和 VibeVoice-7B 哪个效果好？

需要注意的是，生成长音频的时候，这两个模型都会抖动，所以解决方案是，可以多生成一块，然后反复生成把有瑕疵的部分裁剪掉。

这两个 workflow 都是开源的：
VibeVoice: https://t.co/RV3qYA9UkP
IndexTTS2: https://t.co/ptagLxcZLQ… pic.twitter.com/o0CSUCdPhw
— karminski-牙医 (@karminski3) September 19, 2025

B站上大分！IndexTTS2 名副其实的好！
不仅能克隆音色，而且能还原情感和语调，这一点比11Labs还要强的多。 pic.twitter.com/aT03Yk0dac
— Gorden Sun (@Gorden_Sun) September 11, 2025