研究人员开发了一种新的说话人分割方法,即在音频录音中识别谁在何时说话,特别针对尼泊尔-印地语等低资源语言。他们使用了一个包含英语、多样化说话人录音以及新收集的尼泊尔语和印地语音频的多语言数据集,训练了两种神经网络架构:EEND-EDA 和 DiaPer。利用基于 Perceiver 的吸引子(attractors)的 DiaPer 模型表现出卓越的性能,在尼泊尔-印地语测试集上实现了比 EEND-EDA 模型显著更低的说话人分割错误率 (DER),尤其是在具有挑战性的多说话人场景下。 AI
影响 这项研究提升了对代表性不足的语言的说话人分割能力,有望改善不同语言社区的可访问性和信息检索工具。
排序理由 详细介绍新模型架构和在特定数据集上评估的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →