研究人员开发了 Praxy Voice,一种使用预训练的非印度语模型来改进印度语文本到语音 (TTS) 的方法。该方法结合了用于脚本罗马化的 Brahmic Unified Phoneme Space (BUPS)、用于文本令牌预测器的 LoRA 适配器以及语音提示恢复技术。该方法在无需新的声码器训练或商业 TTS 数据的情况下,实现了泰卢固语、泰米尔语和印地语的商业级音频输出。 AI
影响 能够通过最小的干预和无商业数据,利用现有模型创建高质量的印度语 TTS。
排序理由 详细介绍 TTS 合成新方法的学术论文。
- Cartesia Sonic-3
- Chatterbox
- Hugging Face
- IndicF5
- Indic Parler-TTS
- ISO-15919
- LoRA
- Praxy Voice
- Sarvam Bulbul
- Venkata Pushpak Teja Menta
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →