研究人员推出了ReasonAudio,这是一个新的基准,旨在评估文本-音频检索模型在超越简单语义匹配的复杂推理任务上的表现。该基准包含1000个查询和1000个音频片段,涵盖五种推理类型:否定、顺序、重叠、持续时间和混合。对十个最先进模型的评估表明,当前系统在这些需要推理的任务上,特别是否定和持续时间方面,存在显著困难,这表明多模态检索的当前训练方法存在差距。 AI
影响 该基准突显了AI在多模态检索任务中执行复杂推理能力的当前局限性,表明需要新的训练方法。
排序理由 该集群描述了一个用于评估AI模型的新学术基准。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →