研究人员推出了 HEALTHDIAL,这是一个大规模、多语言的新数据集,旨在开发和评估口语对话中的检索增强生成(RAG)系统。该数据集包含 6,000 个信息检索对话,涵盖阿拉伯语、中文、英语和西班牙语,并以世界卫生组织(WHO)的内容为基础。它还包括母语人士录制的 163 小时语音以及详细的人口统计和社会语言学标注。初步的基准测试结果表明,即使是那些被认为是高资源语言,在不同语言之间也存在性能差异。 AI
影响 支持多语言口语对话系统的开发和评估,可能改善健康信息的获取。
排序理由 该集群描述了一个用于人工智能研究的新学术数据集的发布。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →