LLM搜索评估通过历史用户数据得到改进 · arXiv

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 15:05

研究人员开发了一种使用大型语言模型（LLM）评估搜索引擎结果的新方法，该方法整合了历史用户交互数据。这种“基于行为”的方法使用查询相关性印象（QRI）卡来为LLM提供经验证据，从而提高它们将相关性判断与实际用户偏好保持一致的能力，尤其是在处理模糊或长尾查询时。在Spotify进行的评估中，该方法将与用户偏好的匹配度提高了约5%，并在解决分歧案例方面显示出91%的相对改进。该方法在多语言数据集上与人类判断的相关性更强，并且与实际A/B测试结果的匹配度更高，表明其在现实世界搜索系统中的实用价值。 AI

影响通过将判断基于用户行为来增强基于LLM的搜索评估的可靠性，提高现实世界应用的准确性。

排序理由该条目是一篇发表在arXiv上的研究论文，详细介绍了一种评估LLM搜索性能的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Mounia Lalmas · 2026-07-01 15:05

As It Was: LLM搜索评估与历史用户偏好的对齐

Large-scale search systems evolve faster than human quality assurance can scale, especially for long-tail intents and multilingual queries. LLM-as-a-judge approaches provide a scalable alternative for evaluating the relevance of search engine result pages (SERPs), but judgments b…

报道来源 [1]

As It Was: LLM搜索评估与历史用户偏好的对齐

相关实体

相关话题