PulseAugur
实时 16:38:54
English(EN) UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction

UR-BERT 实现支持495种语言的多语言TTS系统

研究人员开发了UR-BERT,这是一种新颖的文本编码器,旨在显著扩展大规模多语言文本到语音(TTS)系统的能力。与受音素到音素资源限制的传统方法不同,UR-BERT将各种书写系统统一为通用的罗马化格式,从而支持495种语言。该系统还包含一个语音令牌预测目标,以提高语音准确性和文本-语音对齐,在现有基线上表现出优越的性能,并对新语言具有强大的泛化能力。 AI

影响 将TTS技术的覆盖范围扩展到数百种新语言,可能实现语音合成的民主化。

排序理由 该集群包含一篇详细介绍特定AI任务新模型架构的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Sangmin Lee, Eekgyun Ahn, Woongjib Choi, Hong-Goo Kang ·

    UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction

    arXiv:2606.11681v1 Announce Type: new Abstract: We propose UR-BERT, a Romanized transcription-based text-to-speech (TTS) encoder for massively multilingual TTS systems. Conventional grapheme-to-phoneme (G2P)-based approaches are limited to around 100 languages due to the availabi…

  2. arXiv cs.CL TIER_1 English(EN) · Hong-Goo Kang ·

    UR-BERT:通过通用罗马化和语音标记预测实现大规模多语言TTS的文本编码器扩展

    We propose UR-BERT, a Romanized transcription-based text-to-speech (TTS) encoder for massively multilingual TTS systems. Conventional grapheme-to-phoneme (G2P)-based approaches are limited to around 100 languages due to the availability of reliable G2P resources. In contrast, UR-…