English(EN) UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction

UR-BERT 实现支持495种语言的多语言TTS系统

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-10 05:51

研究人员开发了UR-BERT，这是一种新颖的文本编码器，旨在显著扩展大规模多语言文本到语音（TTS）系统的能力。与受音素到音素资源限制的传统方法不同，UR-BERT将各种书写系统统一为通用的罗马化格式，从而支持495种语言。该系统还包含一个语音令牌预测目标，以提高语音准确性和文本-语音对齐，在现有基线上表现出优越的性能，并对新语言具有强大的泛化能力。 AI

影响将TTS技术的覆盖范围扩展到数百种新语言，可能实现语音合成的民主化。

排序理由该集群包含一篇详细介绍特定AI任务新模型架构的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Sangmin Lee, Eekgyun Ahn, Woongjib Choi, Hong-Goo Kang · 2026-06-11 04:00

UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction

arXiv:2606.11681v1 Announce Type: new Abstract: We propose UR-BERT, a Romanized transcription-based text-to-speech (TTS) encoder for massively multilingual TTS systems. Conventional grapheme-to-phoneme (G2P)-based approaches are limited to around 100 languages due to the availabi…
arXiv cs.CL TIER_1 English(EN) · Hong-Goo Kang · 2026-06-10 05:51

UR-BERT：通过通用罗马化和语音标记预测实现大规模多语言TTS的文本编码器扩展

We propose UR-BERT, a Romanized transcription-based text-to-speech (TTS) encoder for massively multilingual TTS systems. Conventional grapheme-to-phoneme (G2P)-based approaches are limited to around 100 languages due to the availability of reliable G2P resources. In contrast, UR-…

报道来源 [2]

UR-BERT: Scaling Text Encoders for Massively Multilingual TTS Through Universal Romanization and Speech Token Prediction

UR-BERT：通过通用罗马化和语音标记预测实现大规模多语言TTS的文本编码器扩展

相关实体

相关话题