Mã Nguồn Mở🚀 Giấy Phép Apache 2.0 - Miễn Phí Cho Sử Dụng Thương Mại!

IndexTTS2: TTS Zero-Shot với Kiểm Soát Cảm Xúc & Thời Lượng

IndexTTS2 là hệ thống chuyển văn bản thành giọng nói zero-shot tự động hồi quy mạnh mẽ đạt được khả năng kiểm soát chưa từng có trong tạo giọng nói. Với khả năng biểu đạt cảm xúc tiên tiến, kiểm soát thời lượng chính xác và khả năng nhân bản giọng nói tức thì, nó mang lại khả năng tổng hợp giọng nói tự nhiên, giàu cảm xúc bằng nhiều ngôn ngữ. Được phát hành theo giấy phép Apache 2.0, hoàn toàn mã nguồn mở và sẵn sàng cho sử dụng thương mại.

Để Đạn Bay

Hậu Cung Chân Hoàn Truyện

Hậu Cung Chân Hoàn Truyện 2

Play demo

Để Đạn Bay - Demo Kiểm Soát Thời Lượng

Minh chứng kiểm soát thời lượng giọng nói chính xác với bảo toàn biểu đạt cảm xúc

Kiểm Soát Thời Lượng

Điều chỉnh thời gian chính xác

Kiểm Soát Cảm Xúc

Biểu đạt cảm xúc tự nhiên

Zero-Shot

Không cần huấn luyện

Trải Nghiệm Demo IndexTTS2 Trực Tiếp

Trải nghiệm khả năng nhân bản giọng nói và kiểm soát cảm xúc mạnh mẽ của IndexTTS2 trong thời gian thực. Tạo giọng nói tự nhiên, giàu cảm xúc với kiểm soát thời lượng chính xác và hỗ trợ đa ngôn ngữ. Nhân bản bất kỳ giọng nói nào ngay lập tức mà không cần huấn luyện.

Đánh Giá

Mọi Người Nói Gì Về IndexTTS2

Nghe các nhà nghiên cứu, lập trình viên và những người đam mê AI nói về khả năng nhân bản giọng nói và kiểm soát cảm xúc đột phá của IndexTTS2

Index TTS2 – TTS CỰC KỲ Cảm Xúc Với Nhân Bản Giọng Nói!

Những mô hình mã nguồn mở này đang trở nên cực kỳ tốt. Thực sự ấn tượng.

Mô Hình AI Chuyển Văn Bản Thành Giọng Nói Mới Tuyệt Vời Đã Ra Mắt! Index TTS 2 Ấn Tượng Đầu Tiên

Higgs Audio vẫn bất bại. Hy vọng mô hình được đào tạo v3 của họ sẽ có cảm xúc có thể kiểm soát.

AI chuyển văn bản thành giọng nói tốt nhất mới đã có! Miễn phí & không kiểm duyệt. Hướng dẫn IndexTTS2

"Xin chào, tôi là mẹ của Joe, cậu ấy không khỏe hôm nay và cần ở nhà không đi học cho đến khi khỏe lại."

So Sánh Hiệu Suất với Các Mô Hình TTS Hàng Đầu

Xem IndexTTS2 cạnh tranh như thế nào với các mô hình chuyển văn bản thành giọng nói tiên tiến nhất về biểu đạt cảm xúc, độ chính xác thời lượng, chất lượng nhân bản giọng nói và hỗ trợ đa ngôn ngữ.

Metric	IndexTTS2	OpenAI TTS	ElevenLabs	Azure TTS	F5-TTS	CosyVoice
WER (Word Error Rate)%	1.01	N/A	N/A	N/A	1.56	1.45
Speaker Similarity	0.87	N/A	N/A	N/A	0.82	0.85
MOS (Naturalness)/5.0	4.54	4.2	4.3	4.3	4.19	4.12
Emotion Control	✓	✗	Limited	Limited	✗	✓
Duration Control	✓	✗	✗	✗	Limited	Limited
Zero-Shot Cloning	✓	✓	✓	✗	✓	✓
Supported Languages	2+	57	29	119	2	Multi
RTF (Real-Time Factor)	N/A	0.20	0.15	N/A	0.15	N/A

Comparative performance across key TTS quality metrics based on academic benchmarks

Data Sources: IndexTTS2 (arXiv 2506.21619), F5-TTS (arXiv 2410.06885), CosyVoice2 (arXiv 2412.10117)

Note: N/A indicates data not publicly available. Commercial models evaluated through third-party benchmarks.

✓ = Supported | ✗ = Not Supported | Limited = Partial Support

Triển Khai Cục Bộ

Hướng Dẫn Bắt Đầu Nhanh

Triển khai IndexTTS2 cục bộ chỉ trong vài phút với hướng dẫn từng bước toàn diện. Bắt đầu tạo giọng nói tự nhiên, đầy cảm xúc với khả năng nhân bản giọng nói zero-shot.

Ví dụ Python API

from indextts import IndexTTS

# Initialize the model
tts = IndexTTS()

# Generate speech from text
audio = tts.synthesize(
    text="Hello world! Welcome to IndexTTS2.",
    voice_reference="path/to/reference.wav",  # Optional: clone a voice
    emotion="neutral",  # Control emotion: happy, sad, angry, neutral
    speed=1.0,  # Adjust speaking speed
    language="en"  # Supported: en, zh
)

# Save the output
audio.save("output.wav")

Tài liệu

Hướng dẫn đầy đủ và tham khảo API

Kho GitHub

Mã nguồn và ví dụ

Cộng đồng

Nhận trợ giúp và chia sẻ ý tưởng

Tính Năng Chính Của IndexTTS2

Khám phá các khả năng mạnh mẽ khiến IndexTTS2 trở thành lựa chọn lý tưởng để tạo giọng nói giàu cảm xúc, có thể kiểm soát.

Nhân Bản Giọng Nói Zero-Shot

Nhân bản ngay lập tức bất kỳ giọng nói nào chỉ từ vài giây âm thanh mà không cần huấn luyện. Đạt được khả năng tái tạo giọng nói trung thực cao với tính nhất quán của người nói trên nội dung và cảm xúc đa dạng.

Kiểm Soát Biểu Đạt Cảm Xúc

Tách rời âm sắc khỏi cảm xúc để kiểm soát độc lập. Sử dụng mô tả văn bản để hướng dẫn biểu đạt cảm xúc (vui, buồn, phấn khích, giận dữ) trong khi duy trì bản sắc giọng nói và tính tự nhiên.

Kiểm Soát Thời Lượng Chính Xác

TTS tự động hồi quy đầu tiên kết hợp kiểm soát thời lượng chính xác với tạo giọng nói tự nhiên. Đạt được thời gian giọng nói chính xác mà không làm mất tính biểu cảm hoặc chất lượng ngữ điệu.

Hỗ Trợ Đa Ngôn Ngữ

Hỗ trợ nguyên bản cho tổng hợp tiếng Trung (Quan Thoại), tiếng Anh và tiếng Trung-Anh hỗn hợp. Duy trì phát âm và ngữ điệu tự nhiên qua ranh giới ngôn ngữ.

Kiểm Soát Phát Âm Pinyin

Kiểm soát phát âm tiên tiến thông qua ký hiệu pinyin cho văn bản tiếng Trung. Giải quyết phát âm mơ hồ và đảm bảo đọc ký tự chính xác trong ngữ cảnh phức tạp.

Tính Tự Nhiên & Rõ Ràng Cao

Tỷ lệ lỗi từ (WER) và bảo tồn cảm xúc vượt trội so với các mô hình hiện có. Đạt được đánh giá tính tự nhiên giống con người với độ rõ ràng và dễ hiểu đặc biệt.

Mọi Người Đang Nói Gì Về IndexTTS2 Trên X

Tham gia cuộc trò chuyện về IndexTTS2 và chia sẻ trải nghiệm của bạn với cộng đồng nghiên cứu

How do you make TTS both natural and precisely timed for dubbing or sync? 🎙️⏱️

Meet IndexTTS2—an autoregressive model with novel duration control:

- Mode 1: specify token count → exact speech length
- Mode 2: free AR generation → natural prosody preserved

✨ Extra features:… pic.twitter.com/nvmq05xU5Z
— 机器之心 JIQIZHIXIN (@jiqizhixin) September 19, 2025

🗣️✨Bilibili just dropped IndexTTS2, and it might be the most expressive and controllable zero-shot TTS model yet!

It's a breakthrough for autoregressive models, bringing precise timing and rich emotion to synthesized speech.

Basically, it can produce a voice that sounds like… pic.twitter.com/w625jhRwkq
— 机器之心 JIQIZHIXIN (@jiqizhixin) August 1, 2025

IndexTTS2: New AI text to speech with full emotion control

Free & open-source!

Here's the full tutorial: https://t.co/dzMMT5JvcR pic.twitter.com/LCELPyMwtj
— ⚡AI Search⚡ (@aisearchio) September 18, 2025

IndexTTS2, one of the most realistic and expressive text-to-speech model so far.

Fully local with open weights.

Zero-shot voice cloning. You just provide one audio file (in any language) and it will extremely accurately clone the voice style and rhythm. It sounds much more… pic.twitter.com/6ixAtbCrnn
— Rohan Paul (@rohanpaul_ai) July 14, 2025

⭐ Today’s China AI Native Industry Insights include:
1. MoonshotAI releases Kimi K2: Open-Source Agentic Intelligence at Scale

2. Exciting Upgrade: Alibaba's Qwen Chat Launches Enhanced Features!

3. Bilibili launches IndexTTS2: Revolutionizing Voice Synthesis with Emotion… pic.twitter.com/ov85VOyVjy
— AI Native Foundation (@AINativeF) July 15, 2025

来看 Index TTS2 和 VibeVoice-7B 哪个效果好？

需要注意的是，生成长音频的时候，这两个模型都会抖动，所以解决方案是，可以多生成一块，然后反复生成把有瑕疵的部分裁剪掉。

这两个 workflow 都是开源的：
VibeVoice: https://t.co/RV3qYA9UkP
IndexTTS2: https://t.co/ptagLxcZLQ… pic.twitter.com/o0CSUCdPhw
— karminski-牙医 (@karminski3) September 19, 2025

B站上大分！IndexTTS2 名副其实的好！
不仅能克隆音色，而且能还原情感和语调，这一点比11Labs还要强的多。 pic.twitter.com/aT03Yk0dac
— Gorden Sun (@Gorden_Sun) September 11, 2025