Open Source🚀 Licencia Apache 2.0 - ¡Gratis para Uso Comercial!

IndexTTS2: TTS Zero-Shot con Control Emocional y de Duración

IndexTTS2 es un poderoso sistema autorregresivo de texto a voz zero-shot que logra un control sin precedentes sobre la generación de voz. Con expresión emocional avanzada, control preciso de duración y capacidades de clonación de voz instantánea, ofrece síntesis de voz natural y expresiva en múltiples idiomas. Lanzado bajo licencia Apache 2.0, es completamente open source y listo para uso comercial.

Déjales las Balas Volar

Emperatrices en el Palacio

Emperatrices en el Palacio 2

Play demo

Déjales las Balas Volar - Demo de Control de Duración

Demostrando control preciso de duración del habla con preservación de expresión emocional

Control de Duración

Ajuste preciso del tiempo

Control Emocional

Expresión emocional natural

Zero-Shot

Sin entrenamiento requerido

Probar Demo en Vivo de IndexTTS2

Experimenta las poderosas capacidades de clonación de voz y control emocional de IndexTTS2 en tiempo real. Genera voz natural y expresiva con control preciso de duración y soporte multiidioma. Clona cualquier voz instantáneamente sin entrenamiento.

Reseñas

Lo que la Gente Dice sobre IndexTTS2

Escucha lo que investigadores, desarrolladores y entusiastas de IA están diciendo sobre las revolucionarias capacidades de clonación de voz y control emocional de IndexTTS2

Index TTS2 – ¡Un TTS MUY Emotivo Con Clonación de Voz!

Estos modelos de código abierto se están volviendo increíblemente buenos. Genuinamente impresionado.

¡Fantástico Nuevo Modelo de IA de Texto a Voz Lanzado! Index TTS 2 Primeras Impresiones

Higgs Audio sigue invicto. Con suerte su modelo entrenado v3 presentará emociones controlables.

¡El nuevo mejor texto a voz de IA está aquí! Gratis y sin censura. Tutorial IndexTTS2

"Hola, soy la madre de Joe, no se siente bien hoy y necesitará quedarse en casa sin ir a la escuela hasta que se recupere."

Comparación de Rendimiento con Modelos TTS Líderes

Ve cómo se posiciona IndexTTS2 frente a los modelos de texto a voz más avanzados en expresión emocional, precisión de duración, calidad de clonación de voz y soporte multiidioma.

Metric	IndexTTS2	OpenAI TTS	ElevenLabs	Azure TTS	F5-TTS	CosyVoice
WER (Word Error Rate)%	1.01	N/A	N/A	N/A	1.56	1.45
Speaker Similarity	0.87	N/A	N/A	N/A	0.82	0.85
MOS (Naturalness)/5.0	4.54	4.2	4.3	4.3	4.19	4.12
Emotion Control	✓	✗	Limited	Limited	✗	✓
Duration Control	✓	✗	✗	✗	Limited	Limited
Zero-Shot Cloning	✓	✓	✓	✗	✓	✓
Supported Languages	2+	57	29	119	2	Multi
RTF (Real-Time Factor)	N/A	0.20	0.15	N/A	0.15	N/A

Comparative performance across key TTS quality metrics based on academic benchmarks

Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)

Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.

✓ = Supported | ✗ = Not Supported | Limited = Partial Support

Despliegue Local

Guía de Inicio Rápido

Despliega IndexTTS2 localmente en minutos con nuestra completa guía paso a paso. Comienza a generar voz natural y emocional con capacidades de clonación de voz zero-shot.

Ejemplo de API Python

from indextts import IndexTTS

# Initialize the model
tts = IndexTTS()

# Generate speech from text
audio = tts.synthesize(
    text="Hello world! Welcome to IndexTTS2.",
    voice_reference="path/to/reference.wav",  # Optional: clone a voice
    emotion="neutral",  # Control emotion: happy, sad, angry, neutral
    speed=1.0,  # Adjust speaking speed
    language="en"  # Supported: en, zh
)

# Save the output
audio.save("output.wav")

Documentación

Guías completas y referencia de API

Repositorio de GitHub

Código fuente y ejemplos

Comunidad

Obtén ayuda y comparte ideas

Características Clave de IndexTTS2

Descubre las poderosas capacidades que hacen de IndexTTS2 la elección ideal para generación de texto a voz expresiva y controlable.

Clonación de Voz Zero-Shot

Clona instantáneamente cualquier voz desde solo unos segundos de audio sin entrenamiento. Logra reproducción de voz de alta fidelidad con consistencia del hablante en diversos contenidos y emociones.

Control de Expresión Emocional

Desacopla timbre de emoción para control independiente. Usa descripciones de texto para guiar expresión emocional (feliz, triste, emocionado, enojado) manteniendo identidad de voz y naturalidad.

Control Preciso de Duración

Primer TTS autorregresivo combinando control preciso de duración con generación natural. Logra tiempo de habla preciso sin sacrificar expresividad o calidad de prosodia.

Soporte Multiidioma

Soporte nativo para síntesis en chino (mandarín), inglés y chino-inglés mixto. Mantiene pronunciación natural y entonación a través de fronteras de idioma.

Control de Pronunciación Pinyin

Control avanzado de pronunciación a través de notación pinyin para texto chino. Resuelve pronunciaciones ambiguas y asegura lectura precisa de caracteres en contextos complejos.

Alta Naturalidad y Claridad

Tasa de error de palabra (WER) superior y preservación de emoción comparado con modelos existentes. Logra calificaciones de naturalidad similares a las humanas con excepcional claridad e inteligibilidad.

Lo que la Gente Está Hablando sobre IndexTTS2 en X

Únete a la conversación sobre IndexTTS2 y comparte tu experiencia con la comunidad de investigación

How do you make TTS both natural and precisely timed for dubbing or sync? 🎙️⏱️

Meet IndexTTS2—an autoregressive model with novel duration control:

- Mode 1: specify token count → exact speech length
- Mode 2: free AR generation → natural prosody preserved

✨ Extra features:… pic.twitter.com/nvmq05xU5Z
— 机器之心 JIQIZHIXIN (@jiqizhixin) September 19, 2025

🗣️✨Bilibili just dropped IndexTTS2, and it might be the most expressive and controllable zero-shot TTS model yet!

It's a breakthrough for autoregressive models, bringing precise timing and rich emotion to synthesized speech.

Basically, it can produce a voice that sounds like… pic.twitter.com/w625jhRwkq
— 机器之心 JIQIZHIXIN (@jiqizhixin) August 1, 2025

IndexTTS2: New AI text to speech with full emotion control

Free & open-source!

Here's the full tutorial: https://t.co/dzMMT5JvcR pic.twitter.com/LCELPyMwtj
— ⚡AI Search⚡ (@aisearchio) September 18, 2025

IndexTTS2, one of the most realistic and expressive text-to-speech model so far.

Fully local with open weights.

Zero-shot voice cloning. You just provide one audio file (in any language) and it will extremely accurately clone the voice style and rhythm. It sounds much more… pic.twitter.com/6ixAtbCrnn
— Rohan Paul (@rohanpaul_ai) July 14, 2025

⭐ Today’s China AI Native Industry Insights include:
1. MoonshotAI releases Kimi K2: Open-Source Agentic Intelligence at Scale

2. Exciting Upgrade: Alibaba's Qwen Chat Launches Enhanced Features!

3. Bilibili launches IndexTTS2: Revolutionizing Voice Synthesis with Emotion… pic.twitter.com/ov85VOyVjy
— AI Native Foundation (@AINativeF) July 15, 2025

来看 Index TTS2 和 VibeVoice-7B 哪个效果好？

需要注意的是，生成长音频的时候，这两个模型都会抖动，所以解决方案是，可以多生成一块，然后反复生成把有瑕疵的部分裁剪掉。

这两个 workflow 都是开源的：
VibeVoice: https://t.co/RV3qYA9UkP
IndexTTS2: https://t.co/ptagLxcZLQ… pic.twitter.com/o0CSUCdPhw
— karminski-牙医 (@karminski3) September 19, 2025

B站上大分！IndexTTS2 名副其实的好！
不仅能克隆音色，而且能还原情感和语调，这一点比11Labs还要强的多。 pic.twitter.com/aT03Yk0dac
— Gorden Sun (@Gorden_Sun) September 11, 2025

IndexTTS2: TTS Zero-Shot con Control Emocional y de Duración

Probar Demo en Vivo de IndexTTS2

Lo que la Gente Dice sobre IndexTTS2

Index TTS2 – ¡Un TTS MUY Emotivo Con Clonación de Voz!

¡Fantástico Nuevo Modelo de IA de Texto a Voz Lanzado! Index TTS 2 Primeras Impresiones

¡El nuevo mejor texto a voz de IA está aquí! Gratis y sin censura. Tutorial IndexTTS2

Comparación de Rendimiento con Modelos TTS Líderes

Guía de Inicio Rápido

Ejemplo de API Python

Documentación

Repositorio de GitHub

Comunidad

Características Clave de IndexTTS2

Clonación de Voz Zero-Shot

Control de Expresión Emocional

Control Preciso de Duración

Soporte Multiidioma

Control de Pronunciación Pinyin

Alta Naturalidad y Claridad

Lo que la Gente Está Hablando sobre IndexTTS2 en X

Preguntas Frecuentes

¿Qué es IndexTTS2 y cómo funciona?

¿Qué idiomas soporta IndexTTS2?

¿Cómo puedo usar la API de IndexTTS2?

¿Cuáles son los requisitos de hardware?

¿Qué ventajas tiene IndexTTS2 sobre otros modelos TTS?

¿Es IndexTTS2 open source para uso comercial?

¿Cómo desplegar IndexTTS2 localmente?

¿Cuáles son los mejores casos de uso para IndexTTS2?