PulseAugur
实时 21:11:35
English(EN) FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for \"U-Tsang, Amdo and Kham Speech Dataset Generation

新的TTS框架从有限数据中合成藏语方言

研究人员开发了FMSD-TTS,一个新颖的少样本文本到语音系统,旨在为资源匮乏的藏语及其三个主要方言:卫藏语、安多语和康语生成语音。该系统利用说话人-方言融合模块和方言专用动态路由网络来准确捕捉方言差异,同时保持说话人身份。评估表明,FMSD-TTS在方言表现力和说话人相似性方面优于现有方法,并且合成语音在语音到语音方言转换任务上得到了验证。 AI

影响 能够为资源匮乏的语言创建合成语音,可能有助于方言保护和可访问性。

排序理由 这是一篇描述一种针对资源匮乏语言的新文本到语音系统的研究论文。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的TTS框架从有限数据中合成藏语方言

报道来源 [1]

  1. arXiv cs.CL TIER_1 English(EN) · Yutong Liu, Ziyue Zhang, Ban Ma-bao, Yuqing Cai, Yongbin Yu, Renzeng Duojie, Xiangxiang Wang, Fan Gao, Cheng Huang, Nyima Tashi ·

    FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for \"U-Tsang, Amdo and Kham Speech Dataset Generation

    arXiv:2505.14351v4 Announce Type: replace-cross Abstract: Tibetan is a low-resource language with minimal parallel speech corpora spanning its three major dialects-\"U-Tsang, Amdo, and Kham-limiting progress in speech modeling. To address this issue, we propose FMSD-TTS, a few-sh…