PulseAugur
实时 17:06:40
English(EN) ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

新的 ParsVoice 语料库提升波斯语 TTS 能力

研究人员推出了 ParsVoice,这是一个大规模的波斯语语音和文本数据新语料库,旨在推进波斯语的文本到语音(TTS)合成和其他语音处理任务。该数据集包含 2,200 小时的 TTS 就绪音频,拥有来自 1,815 名已识别说话人的超过 136 万个对齐片段,其规模远大于之前的波斯语语音数据集。创建过程涉及一个复杂的流程,包括微调 ParsBERT 模型、优化音频边界、恢复标点符号以及进行说话人识别和质量评估。通过微调多语言 TTS 模型 XTTS,ParsVoice 的有效性得到了证明,该模型在自然度和说话人相似度方面取得了显著的评分。 AI

影响 这个大规模语料库旨在显著提高波斯语文本到语音系统的质量和可用性,可能为低资源语言带来新的应用和研究。

排序理由 该集群描述了一篇关于为特定语言创建大规模语音语料库的新学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的 ParsVoice 语料库提升波斯语 TTS 能力

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery ·

    ParsVoice:用于文本到语音合成的大规模多说话人波斯语语音语料库

    arXiv:2510.10774v3 Announce Type: replace-cross Abstract: Persian remains substantially underrepresented in open speech-text resources, limiting progress in multi-speaker text-to-speech (TTS), speech-language modelling, and low-resource speech processing. We introduce ParsVoice, …