研究人员推出VieSpeaker,一个用于越南语说话人识别的新大规模数据集,该数据集不依赖视觉线索。该数据集是利用一种新颖的流程构建的,该流程利用文本元数据和大型语言模型推理来推断说话人身份,克服了现有语料库中需要说话人在镜头前的局限性。VieSpeaker包含约902小时的语音,来自4,715名说话人,与现有的越南语数据集相比,在训练模型的鲁棒性和泛化能力方面表现出改进。 AI
影响 为推进说话人识别技术提供了新资源,特别是对于越南语等资源匮乏的语言。
排序理由 该集群描述了一个新的学术数据集和研究论文。
AI 生成摘要 · Google Gemini · 来自 3 个来源。 我们如何撰写摘要 →