PulseAugur
实时 07:20:39

LLM搜索评估通过历史用户数据得到改进 · arXiv

研究人员开发了一种使用大型语言模型(LLM)评估搜索引擎结果的新方法,该方法整合了历史用户交互数据。这种“基于行为”的方法使用查询相关性印象(QRI)卡来为LLM提供经验证据,从而提高它们将相关性判断与实际用户偏好保持一致的能力,尤其是在处理模糊或长尾查询时。在Spotify进行的评估中,该方法将与用户偏好的匹配度提高了约5%,并在解决分歧案例方面显示出91%的相对改进。该方法在多语言数据集上与人类判断的相关性更强,并且与实际A/B测试结果的匹配度更高,表明其在现实世界搜索系统中的实用价值。 AI

影响 通过将判断基于用户行为来增强基于LLM的搜索评估的可靠性,提高现实世界应用的准确性。

排序理由 该条目是一篇发表在arXiv上的研究论文,详细介绍了一种评估LLM搜索性能的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.IR (Information Retrieval) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

LLM搜索评估通过历史用户数据得到改进 · arXiv

报道来源 [1]

  1. arXiv cs.IR (Information Retrieval) TIER_1 English(EN) · Mounia Lalmas ·

    As It Was: LLM搜索评估与历史用户偏好的对齐

    Large-scale search systems evolve faster than human quality assurance can scale, especially for long-tail intents and multilingual queries. LLM-as-a-judge approaches provide a scalable alternative for evaluating the relevance of search engine result pages (SERPs), but judgments b…