English(EN) Neural Speaker Diarization via Multilingual Training: Evaluation on Low-Resource Nepali-Hindi Speech

新型神经说话人分割模型在低资源尼泊尔-印地语语音上表现优异

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-26 04:00

研究人员开发了一种新的说话人分割方法，即在音频录音中识别谁在何时说话，特别针对尼泊尔-印地语等低资源语言。他们使用了一个包含英语、多样化说话人录音以及新收集的尼泊尔语和印地语音频的多语言数据集，训练了两种神经网络架构：EEND-EDA 和 DiaPer。利用基于 Perceiver 的吸引子（attractors）的 DiaPer 模型表现出卓越的性能，在尼泊尔-印地语测试集上实现了比 EEND-EDA 模型显著更低的说话人分割错误率 (DER)，尤其是在具有挑战性的多说话人场景下。 AI

影响这项研究提升了对代表性不足的语言的说话人分割能力，有望改善不同语言社区的可访问性和信息检索工具。

排序理由详细介绍新模型架构和在特定数据集上评估的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CL TIER_1 English(EN) · Samip Neupane, Sandesh Pokhrel, Sandesh Pyakurel, Basanta Joshi · 2026-06-26 04:00

多语言训练的神经说话人日志：在低资源尼泊尔-印地语语音上的评估

arXiv:2606.26144v1 Announce Type: cross Abstract: Speaker diarization, the task of determining "who spoke when" in a multi-speaker recording, is a critical component in applications such as meeting transcription, accessibility tools, and multilingual information retrieval. While …

报道来源 [1]

多语言训练的神经说话人日志：在低资源尼泊尔-印地语语音上的评估

相关实体

相关话题