研究人员推出了 ParsVoice,这是一个大规模的波斯语语音和文本数据新语料库,旨在推进波斯语的文本到语音(TTS)合成和其他语音处理任务。该数据集包含 2,200 小时的 TTS 就绪音频,拥有来自 1,815 名已识别说话人的超过 136 万个对齐片段,其规模远大于之前的波斯语语音数据集。创建过程涉及一个复杂的流程,包括微调 ParsBERT 模型、优化音频边界、恢复标点符号以及进行说话人识别和质量评估。通过微调多语言 TTS 模型 XTTS,ParsVoice 的有效性得到了证明,该模型在自然度和说话人相似度方面取得了显著的评分。 AI
影响 这个大规模语料库旨在显著提高波斯语文本到语音系统的质量和可用性,可能为低资源语言带来新的应用和研究。
排序理由 该集群描述了一篇关于为特定语言创建大规模语音语料库的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →