一项新的研究论文揭示,在信息检索中常用的监督式神经检索器会产生对某些文档类型的隐式偏见。这种被称为“相关性先验”的偏见是从标注过程本身学到的,该过程通常偏爱全面、主流的主题,而不是小众或技术性内容。因此,即使先验较低的文档确实相关,检索起来也更困难,从而造成了可查找性差距。研究表明,这是监督式检索的一个结构性限制,模型会内化其训练数据中的偏好。 AI
影响 这项研究突显了人工智能驱动的搜索系统中潜在的偏见,表明数据标注方式可能导致模型忽略小众或技术信息。
排序理由 该集群包含一篇详细介绍神经检索器发现的论文。
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →