English(EN) Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese Speech Generation via Data Scaling and Targeted Data Synthesis

新的日语TTS系统通过大规模数据扩展解决汉字多音字问题

作者 PulseAugur 编辑部 · [2 个来源] · 2026-06-24 03:57

研究人员开发了Sarashina2.2-TTS，一个专为日语设计的创新文本到语音系统，解决了汉字多音字的问题。该系统利用了约361,000小时的庞大数据集，其中包括日语和英语的均衡混合，并采用定向数据增强来提高汉字读音的准确性。Sarashina2.2-TTS引入了常用汉字读音基准（Joyo Kanji Yomi Benchmark）和一项新指标Kana-CER来评估发音的正确性。实验表明，该系统在零样本合成中实现了最先进的汉字级别读音准确性和高说话人相似度，同时还展示了跨语言鲁棒性的提高。 AI

影响这项研究推进了日语语音合成能力，可能提高日语用户的可访问性和应用。

排序理由该集群描述了一篇详细介绍新型TTS系统和基准的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。我们如何撰写摘要 →

报道来源 [2]

arXiv cs.CL TIER_1 English(EN) · Lianbo Liu, Shiao Zhu, Kai Washizaki, Reo Yoneyama, Haesung Jeon, Mengjie Zhao, Yusuke Fujita, Hao Shi, Nao Yoshida, Yuan Gao, Roman Koshkin, Yukiya Hono, Yui Sudo · 2026-06-25 04:00

Sarashina2.2-TTS：通过数据扩展和定向数据合成解决日语语音生成中的汉字多音字问题

arXiv:2606.25369v1 Announce Type: cross Abstract: While large language model (LLM)-based text-to-speech (TTS) systems have achieved high-quality speech synthesis, most existing systems focus on English and Chinese. Japanese, however, remains under-explored, and its unique linguis…
arXiv cs.CL TIER_1 English(EN) · Yui Sudo · 2026-06-24 03:57

Sarashina2.2-TTS：通过数据扩展和定向数据合成解决日语语音生成中的汉字多音字问题

While large language model (LLM)-based text-to-speech (TTS) systems have achieved high-quality speech synthesis, most existing systems focus on English and Chinese. Japanese, however, remains under-explored, and its unique linguistic challenges, such as widespread context-depende…

报道来源 [2]

Sarashina2.2-TTS：通过数据扩展和定向数据合成解决日语语音生成中的汉字多音字问题

Sarashina2.2-TTS：通过数据扩展和定向数据合成解决日语语音生成中的汉字多音字问题

相关实体

相关话题