Open Source🚀 Licença Apache 2.0 - Gratuito para Uso Comercial!

IndexTTS2: TTS Zero-Shot com Controlo Emocional e de Duração

IndexTTS2 é um poderoso sistema autorregressivo de texto para voz zero-shot que alcança controlo sem precedentes sobre a geração de voz. Com expressão emocional avançada, controlo preciso de duração e capacidades de clonagem de voz instantânea, oferece síntese de voz natural e expressiva em múltiplos idiomas. Lançado sob licença Apache 2.0, é completamente open source e pronto para uso comercial.

Deixe as Balas Voarem - Demo de Controlo de Duração

Demonstrando controlo preciso de duração da fala com preservação de expressão emocional

Controlo de Duração

Ajuste preciso do tempo

Controlo Emocional

Expressão emocional natural

Zero-Shot

Sem treino necessário

Experimentar Demo ao Vivo do IndexTTS2

Experimente as poderosas capacidades de clonagem de voz e controlo emocional do IndexTTS2 em tempo real. Gere voz natural e expressiva com controlo preciso de duração e suporte multilingue. Clone qualquer voz instantaneamente sem treino.

Loading IndexTTS2...

Avaliações

O Que as Pessoas Dizem Sobre o IndexTTS2

Ouça o que investigadores, programadores e entusiastas de IA estão a dizer sobre as revolucionárias capacidades de clonagem de voz e controlo emocional do IndexTTS2

Index TTS2 – Um TTS MUITO Emotivo Com Clonagem de Voz!

Index TTS2 – Um TTS MUITO Emotivo Com Clonagem de Voz!

Estes modelos de código aberto estão a ficar incrivelmente bons. Genuinamente impressionado.

Fantástico Novo Modelo de IA de Texto para Voz Lançado! Index TTS 2 Primeiras Impressões

Fantástico Novo Modelo de IA de Texto para Voz Lançado! Index TTS 2 Primeiras Impressões

Higgs Audio continua invicto. Espero que o seu modelo treinado v3 apresente emoções controláveis.

O novo melhor texto para voz de IA está aqui! Gratuito e sem censura. Tutorial IndexTTS2

O novo melhor texto para voz de IA está aqui! Gratuito e sem censura. Tutorial IndexTTS2

"Olá, sou a mãe do Joe, ele não está a sentir-se bem hoje e precisará ficar em casa sem ir à escola até se recuperar."

Comparação de Desempenho com Modelos TTS Líderes

Veja como o IndexTTS2 se destaca contra os modelos de texto para voz mais avançados em expressão emocional, precisão de duração, qualidade de clonagem de voz e suporte multilingue.

MetricIndexTTS2OpenAI TTSElevenLabsAzure TTSF5-TTSCosyVoice
WER (Word Error Rate)%
1.01
N/A
N/A
N/A
1.56
1.45
Speaker Similarity
0.87
N/A
N/A
N/A
0.82
0.85
MOS (Naturalness)/5.0
4.54
4.2
4.3
4.3
4.19
4.12
Emotion Control
Limited
Limited
Duration Control
Limited
Limited
Zero-Shot Cloning
Supported Languages
2+
57
29
119
2
Multi
RTF (Real-Time Factor)
N/A
0.20
0.15
N/A
0.15
N/A

Comparative performance across key TTS quality metrics based on academic benchmarks

Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)

Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.

✓ = Supported | ✗ = Not Supported | Limited = Partial Support

Implementação Local

Guia de Início Rápido

Implemente o IndexTTS2 localmente em minutos com o nosso guia passo a passo abrangente. Comece a gerar voz natural e emocional com capacidades de clonagem de voz zero-shot.

Exemplo de API Python

from indextts import IndexTTS

# Initialize the model
tts = IndexTTS()

# Generate speech from text
audio = tts.synthesize(
    text="Hello world! Welcome to IndexTTS2.",
    voice_reference="path/to/reference.wav",  # Optional: clone a voice
    emotion="neutral",  # Control emotion: happy, sad, angry, neutral
    speed=1.0,  # Adjust speaking speed
    language="en"  # Supported: en, zh
)

# Save the output
audio.save("output.wav")

Documentação

Guias completos e referência de API

Repositório GitHub

Código fonte e exemplos

Comunidade

Obtenha ajuda e compartilhe ideias

Recursos Principais do IndexTTS2

Descubra as capacidades poderosas que tornam o IndexTTS2 a escolha ideal para geração de texto para voz expressiva e controlável.

Clonagem de Voz Zero-Shot

Clone instantaneamente qualquer voz a partir de apenas alguns segundos de áudio sem treino. Alcança reprodução de voz de alta fidelidade com consistência do locutor em diversos conteúdos e emoções.

Controlo de Expressão Emocional

Desacopla timbre de emoção para controlo independente. Use descrições de texto para orientar expressão emocional (feliz, triste, animado, zangado) mantendo identidade de voz e naturalidade.

Controlo Preciso de Duração

Primeiro TTS autorregressivo combinando controlo preciso de duração com geração natural. Alcance tempo de fala preciso sem sacrificar expressividade ou qualidade de prosódia.

Suporte Multilingue

Suporte nativo para síntese em chinês (mandarim), inglês e chinês-inglês misto. Mantém pronúncia natural e entoação através de fronteiras linguísticas.

Controlo de Pronúncia Pinyin

Controlo avançado de pronúncia através de notação pinyin para texto chinês. Resolve pronúncias ambíguas e garante leitura precisa de caracteres em contextos complexos.

Alta Naturalidade e Clareza

Taxa de erro de palavra (WER) superior e preservação de emoção comparado com modelos existentes. Alcança classificações de naturalidade semelhantes às humanas com clareza e inteligibilidade excepcionais.

O Que as Pessoas Estão a Falar Sobre o IndexTTS2 no X

Junte-se à conversa sobre o IndexTTS2 e partilhe a sua experiência com a comunidade de investigação

Perguntas Frequentes