研究人员开发了一种使用大型语言模型(LLM)评估搜索引擎结果的新方法,该方法整合了历史用户交互数据。这种“基于行为”的方法使用查询相关性印象(QRI)卡来为LLM提供经验证据,从而提高它们将相关性判断与实际用户偏好保持一致的能力,尤其是在处理模糊或长尾查询时。在Spotify进行的评估中,该方法将与用户偏好的匹配度提高了约5%,并在解决分歧案例方面显示出91%的相对改进。该方法在多语言数据集上与人类判断的相关性更强,并且与实际A/B测试结果的匹配度更高,表明其在现实世界搜索系统中的实用价值。 AI
影响 通过将判断基于用户行为来增强基于LLM的搜索评估的可靠性,提高现实世界应用的准确性。
排序理由 该条目是一篇发表在arXiv上的研究论文,详细介绍了一种评估LLM搜索性能的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
在 arXiv cs.IR (Information Retrieval) 阅读 →
- A/B testing
- arXiv
- CatalyzeX
- DagsHub
- Gotit.pub
- Hugging Face
- Query-Relevance-Impressions (QRI) card
- ScienceCast
- Spearman's rank correlation coefficient
- Spotify
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →