PulseAugur
实时 08:36:04
English(EN) Closing the Quality Gap in Low-Resource Text-to-Speech: LoRA Fine-Tuning of VoxCPM2 for Khmer and Korean

LoRA 微调提升了低资源高棉语 TTS 的质量

研究人员开发了一种方法来提高高棉语和韩语等低资源语言的文本到语音(TTS)质量。通过使用单个低秩自适应(LoRA)适配器微调 2.4B 参数的 VoxCPM2 模型,他们将高棉语的平均意见得分(MOS)从 3.85 显著提高到 4.23。这种适配器仅训练了模型参数的一小部分,证明了其效率。该技术对于基础模型最初表现不佳的语言效果最好,而对于基础模型已经处理得很好的韩语,则没有显示出任何好处,甚至出现了性能下降。 AI

影响 这项研究展示了一种提高资源匮乏语言 TTS 质量的有效方法,有可能拓宽对先进语音合成技术的获取途径。

排序理由 该集群包含一篇学术论文,详细介绍了改进 TTS 模型的新研究方法。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

LoRA 微调提升了低资源高棉语 TTS 的质量

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Phannet Pov, Sovandara Chhoun, Hyun Woo Park, Wan-Sup Cho, Saksonita Khoeurn ·

    弥合低资源文本到语音的质量差距:LoRA 微调 VoxCPM2 以支持高棉语和韩语

    arXiv:2606.26618v1 Announce Type: new Abstract: Large pretrained text-to-speech (TTS) models sound almost human for well-resourced languages, but much worse for languages that are rare in their training data. We study this quality gap for Khmer and Korean using VoxCPM2, a 2.4B-pa…

  2. arXiv cs.CL TIER_1 English(EN) · Saksonita Khoeurn ·

    弥合低资源文本到语音的质量差距:针对高棉语和韩语的 VoxCPM2 的 LoRA 微调

    Large pretrained text-to-speech (TTS) models sound almost human for well-resourced languages, but much worse for languages that are rare in their training data. We study this quality gap for Khmer and Korean using VoxCPM2, a 2.4B-parameter, tokenizer-free TTS model that joins a M…