English(EN) Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese Speech Generation via Data Scaling and Targeted Data Synthesis

新的TTS系统通过海量数据解决日语汉字多音字问题

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-24 03:57

研究人员开发了Sarashina2.2-TTS，一个新颖的日语文本到语音（TTS）系统，旨在克服依赖上下文的汉字多音字挑战。该系统利用了约361,000小时的庞大数据集，其中包括日语和英语的均衡混合，并采用定向数据增强管道来处理2,136个常用汉字。为了评估其性能，引入了一个新的基准测试——常用汉字读音基准（Joyo Kanji Yomi Benchmark）和一个称为Kana-CER的指标，重点关注发音的准确性。Sarashina2.2-TTS在汉字读音和零样本日语语音合成的说话人相似度方面展现了最先进的准确性，并且在跨语言鲁棒性方面也有所提高。 AI

影响这一发展推动了TTS在日语能力方面的进步，可能提高日语使用者的可访问性和应用。

排序理由该集群描述了一篇详细介绍新颖TTS系统和基准测试的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 Hugging Face Daily Papers 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-06-24 03:57

Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese Speech Generation via Data Scaling and Targeted Data Synthesis

While large language model (LLM)-based text-to-speech (TTS) systems have achieved high-quality speech synthesis, most existing systems focus on English and Chinese. Japanese, however, remains under-explored, and its unique linguistic challenges, such as widespread context-depende…

报道来源 [1]

Sarashina2.2-TTS: Tackling Kanji Polyphony in Japanese Speech Generation via Data Scaling and Targeted Data Synthesis

相关实体

相关话题