PulseAugur
实时 12:08:15
English(EN) Dial HEALTHDIAL for Advice: A Multilingual and Multi-Parallel Spoken Dialogue Dataset for Knowledge-Grounded Information Seeking

新 HEALTHDIAL 数据集发布,用于多语言口语对话系统

研究人员推出了 HEALTHDIAL,这是一个大规模、多语言的新数据集,旨在开发和评估口语对话中的检索增强生成(RAG)系统。该数据集包含 6,000 个信息检索对话,涵盖阿拉伯语、中文、英语和西班牙语,并以世界卫生组织(WHO)的内容为基础。它还包括母语人士录制的 163 小时语音以及详细的人口统计和社会语言学标注。初步的基准测试结果表明,即使是那些被认为是高资源语言,在不同语言之间也存在性能差异。 AI

影响 支持多语言口语对话系统的开发和评估,可能改善健康信息的获取。

排序理由 该集群描述了一个用于人工智能研究的新学术数据集的发布。

在 arXiv cs.CL 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

新 HEALTHDIAL 数据集发布,用于多语言口语对话系统

报道来源 [2]

  1. arXiv cs.CL TIER_1 English(EN) · Songbo Hu, Yinhong Liu, Ej Zhou, Evgeniia Razumovskaia, Xiaobin Wang, Alexander Fraser, Ivan Vuli\'c, Anna Korhonen ·

    拨打 HEALTHDIAL 获取建议:面向知识驱动信息检索的多语言、多并行口语对话数据集

    arXiv:2605.30107v1 Announce Type: new Abstract: Creating spoken dialogue datasets is methodologically challenging, and these challenges are amplified when the goal is to build multilingual, multi-parallel datasets at scale. This work introduces HEALTHDIAL, a large-scale, multilin…

  2. arXiv cs.CL TIER_1 English(EN) · Anna Korhonen ·

    拨打 HEALTHDIAL 获取建议:一个用于知识导向信息检索的多语言、多并行口语对话数据集

    Creating spoken dialogue datasets is methodologically challenging, and these challenges are amplified when the goal is to build multilingual, multi-parallel datasets at scale. This work introduces HEALTHDIAL, a large-scale, multilingual, and multi-parallel dataset for developing …