IndexTTS2: TTS Zero-Shot com Controle de Emoção e Duração
IndexTTS2 é um poderoso sistema autorregressivo de texto para fala zero-shot que alcança controle sem precedentes sobre a geração de fala. Com expressão emocional avançada, controle preciso de duração e capacidades de clonagem de voz instantânea, ele fornece síntese de fala natural e expressiva em vários idiomas. Lançado sob licença Apache 2.0, é completamente código aberto e pronto para uso comercial.
Deixe as Balas Voarem - Demo de Controle de Duração
Demonstrando controle preciso de duração de fala com preservação de expressão emocional
Controle de Duração
Ajuste preciso de tempo
Controle Emocional
Expressão emocional natural
Zero-Shot
Sem necessidade de treinamento
Experimente o Demo ao Vivo do IndexTTS2
Experimente as poderosas capacidades de clonagem de voz e controle de emoção do IndexTTS2 em tempo real. Gere fala natural e expressiva com controle preciso de duração e suporte multilíngue. Clone qualquer voz instantaneamente sem treinamento.
O Que as Pessoas Estão Dizendo Sobre o IndexTTS2
Ouça o que pesquisadores, desenvolvedores e entusiastas de IA estão dizendo sobre as capacidades revolucionárias de clonagem de voz e controle de emoção do IndexTTS2

Index TTS2 – Um TTS MUITO Emotivo Com Clonagem de Voz!
Esses modelos de código aberto estão ficando incrivelmente bons. Genuinamente impressionado.

Fantástico Novo Modelo de IA de Texto para Voz Lançado! Index TTS 2 Primeiras Impressões
Higgs Audio continua imbatível. Espero que seu modelo treinado v3 apresente emoções controláveis.

O novo melhor texto para voz de IA está aqui! Grátis e sem censura. Tutorial IndexTTS2
"Oi, aqui é a mãe do Joe, ele não está se sentindo bem hoje e vai precisar ficar em casa sem ir para a escola até se recuperar."
Comparação de Desempenho com Modelos TTS Líderes
Veja como o IndexTTS2 se compara aos modelos de texto para fala de última geração em expressão emocional, precisão de duração, qualidade de clonagem de voz e suporte multilíngue.
| Metric | IndexTTS2 | OpenAI TTS | ElevenLabs | Azure TTS | F5-TTS | CosyVoice |
|---|---|---|---|---|---|---|
| WER (Word Error Rate)% | 1.01 | N/A | N/A | N/A | 1.56 | 1.45 |
| Speaker Similarity | 0.87 | N/A | N/A | N/A | 0.82 | 0.85 |
| MOS (Naturalness)/5.0 | 4.54 | 4.2 | 4.3 | 4.3 | 4.19 | 4.12 |
| Emotion Control | ✓ | ✗ | Limited | Limited | ✗ | ✓ |
| Duration Control | ✓ | ✗ | ✗ | ✗ | Limited | Limited |
| Zero-Shot Cloning | ✓ | ✓ | ✓ | ✗ | ✓ | ✓ |
| Supported Languages | 2+ | 57 | 29 | 119 | 2 | Multi |
| RTF (Real-Time Factor) | N/A | 0.20 | 0.15 | N/A | 0.15 | N/A |
Comparative performance across key TTS quality metrics based on academic benchmarks
Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)
Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.
✓ = Supported | ✗ = Not Supported | Limited = Partial Support
Guia de Início Rápido
Implante o IndexTTS2 localmente em minutos com nosso guia abrangente passo a passo. Comece a gerar fala natural e emocional com capacidades de clonagem de voz zero-shot.
Exemplo de API Python
from indextts import IndexTTS
# Initialize the model
tts = IndexTTS()
# Generate speech from text
audio = tts.synthesize(
text="Hello world! Welcome to IndexTTS2.",
voice_reference="path/to/reference.wav", # Optional: clone a voice
emotion="neutral", # Control emotion: happy, sad, angry, neutral
speed=1.0, # Adjust speaking speed
language="en" # Supported: en, zh
)
# Save the output
audio.save("output.wav")Documentação
Guias completos e referência da API
Repositório GitHub
Código-fonte e exemplos
Comunidade
Obtenha ajuda e compartilhe ideias
Recursos Principais do IndexTTS2
Descubra as capacidades poderosas que tornam o IndexTTS2 a escolha ideal para geração de texto para fala expressiva e controlável.
Clonagem de Voz Zero-Shot
Clone instantaneamente qualquer voz a partir de apenas alguns segundos de áudio sem treinamento. Alcança reprodução de voz de alta fidelidade com consistência do falante através de conteúdos e emoções diversas.
Controle de Expressão Emocional
Desacople timbre de emoção para controle independente. Use descrições textuais para orientar a expressão emocional (feliz, triste, animado, com raiva) mantendo a identidade da voz e naturalidade.
Controle Preciso de Duração
Primeiro TTS autorregressivo combinando controle preciso de duração com geração natural. Alcance tempo de fala preciso sem sacrificar expressividade ou qualidade da prosódia.
Suporte Multilíngue
Suporte nativo para síntese em chinês (mandarim), inglês e misto chinês-inglês. Mantém pronúncia e entonação naturais através das fronteiras linguísticas.
Controle de Pronúncia Pinyin
Controle avançado de pronúncia através de notação pinyin para texto chinês. Resolva pronúncias ambíguas e garanta leitura precisa de caracteres em contextos complexos.
Alta Naturalidade e Clareza
Taxa de erro de palavras (WER) superior e preservação de emoção em comparação com modelos existentes. Alcança avaliações de naturalidade semelhantes às humanas com clareza e inteligibilidade excepcionais.
O Que as Pessoas Estão Falando Sobre IndexTTS2 no X
Participe da conversa sobre IndexTTS2 e compartilhe sua experiência com a comunidade de pesquisa
How do you make TTS both natural and precisely timed for dubbing or sync? 🎙️⏱️
— 机器之心 JIQIZHIXIN (@jiqizhixin) September 19, 2025
Meet IndexTTS2—an autoregressive model with novel duration control:
- Mode 1: specify token count → exact speech length
- Mode 2: free AR generation → natural prosody preserved
✨ Extra features:… pic.twitter.com/nvmq05xU5Z
🗣️✨Bilibili just dropped IndexTTS2, and it might be the most expressive and controllable zero-shot TTS model yet!
— 机器之心 JIQIZHIXIN (@jiqizhixin) August 1, 2025
It's a breakthrough for autoregressive models, bringing precise timing and rich emotion to synthesized speech.
Basically, it can produce a voice that sounds like… pic.twitter.com/w625jhRwkq
IndexTTS2: New AI text to speech with full emotion control
— ⚡AI Search⚡ (@aisearchio) September 18, 2025
Free & open-source!
Here's the full tutorial: https://t.co/dzMMT5JvcR pic.twitter.com/LCELPyMwtj
IndexTTS2, one of the most realistic and expressive text-to-speech model so far.
— Rohan Paul (@rohanpaul_ai) July 14, 2025
Fully local with open weights.
Zero-shot voice cloning. You just provide one audio file (in any language) and it will extremely accurately clone the voice style and rhythm. It sounds much more… pic.twitter.com/6ixAtbCrnn
⭐ Today’s China AI Native Industry Insights include:
— AI Native Foundation (@AINativeF) July 15, 2025
1. MoonshotAI releases Kimi K2: Open-Source Agentic Intelligence at Scale
2. Exciting Upgrade: Alibaba's Qwen Chat Launches Enhanced Features!
3. Bilibili launches IndexTTS2: Revolutionizing Voice Synthesis with Emotion… pic.twitter.com/ov85VOyVjy
来看 Index TTS2 和 VibeVoice-7B 哪个效果好?
— karminski-牙医 (@karminski3) September 19, 2025
需要注意的是,生成长音频的时候,这两个模型都会抖动,所以解决方案是,可以多生成一块,然后反复生成把有瑕疵的部分裁剪掉。
这两个 workflow 都是开源的:
VibeVoice: https://t.co/RV3qYA9UkP
IndexTTS2: https://t.co/ptagLxcZLQ… pic.twitter.com/o0CSUCdPhw
B站上大分!IndexTTS2 名副其实的好!
— Gorden Sun (@Gorden_Sun) September 11, 2025
不仅能克隆音色,而且能还原情感和语调,这一点比11Labs还要强的多。 pic.twitter.com/aT03Yk0dac
