研究人员开发了UR-BERT,这是一种新颖的文本编码器,旨在显著扩展大规模多语言文本到语音(TTS)系统的能力。与受音素到音素资源限制的传统方法不同,UR-BERT将各种书写系统统一为通用的罗马化格式,从而支持495种语言。该系统还包含一个语音令牌预测目标,以提高语音准确性和文本-语音对齐,在现有基线上表现出优越的性能,并对新语言具有强大的泛化能力。 AI
影响 将TTS技术的覆盖范围扩展到数百种新语言,可能实现语音合成的民主化。
排序理由 该集群包含一篇详细介绍特定AI任务新模型架构的研究论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →