PulseAugur
实时 09:09:12
English(EN) Do Neural Retrievers Prefer Certain Documents? Evidence of Learned Relevance Priors

神经检索器偏爱主流文档

一项新的研究论文揭示,在信息检索中常用的监督式神经检索器会产生对某些文档类型的隐式偏见。这种被称为“相关性先验”的偏见是从标注过程本身学到的,该过程通常偏爱全面、主流的主题,而不是小众或技术性内容。因此,即使先验较低的文档确实相关,检索起来也更困难,从而造成了可查找性差距。研究表明,这是监督式检索的一个结构性限制,模型会内化其训练数据中的偏好。 AI

影响 这项研究突显了人工智能驱动的搜索系统中潜在的偏见,表明数据标注方式可能导致模型忽略小众或技术信息。

排序理由 该集群包含一篇详细介绍神经检索器发现的论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →

报道来源 [2]

  1. arXiv cs.AI TIER_1 English(EN) · Francisco Valentini, Edgar Altszyler, Martin Fajcik ·

    神经网络检索器是否偏爱某些文档?已学习相关性先验的证据

    arXiv:2606.02814v1 Announce Type: cross Abstract: Neural retrievers are trained to estimate query-document relevance from annotated query-document pairs. Yet annotation protocols may not purely reflect relevance: they select only a subset of documents for labeling, and this selec…

  2. arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Martin Fajcik ·

    Do Neural Retrievers Prefer Certain Documents? Evidence of Learned Relevance Priors

    Neural retrievers are trained to estimate query-document relevance from annotated query-document pairs. Yet annotation protocols may not purely reflect relevance: they select only a subset of documents for labeling, and this selection can favor certain document types over others.…