English(EN) The 33 'grounded-but-wrong' answers were a metric artifact: how ID-based context recall lies on multi-answer datasets

RAG指标伪影导致错误的“有依据但错误”标记

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-08 11:46

一位研究人员在其对检索增强生成（RAG）系统的评估中发现了一个指标伪影，特别是在“有依据但错误”的答案方面。该问题源于一个基于ID的上下文召回指标，该指标在每查询有多个相关文档的数据集上被无意中设置为失败。当指标的分母是相关文档的数量而上下文窗口大小（k）较小时，召回阈值变得无法达到，从而错误地将许多答案标记为有问题。经过仔细检查和调整指标后，研究人员并未发现实际的检索失败，表明RAG管道的性能符合预期。 AI

影响强调了在RAG系统中仔细选择指标以避免误解性能并有效指导开发的关键需求。

排序理由该项目是一篇研究论文，详细介绍了AI系统评估中的方法论修正。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · elvisyao007 · 2026-06-08 11:46

33个“有根据但错误”的答案是一个指标伪影：基于ID的上下文回忆如何在多答案数据集中撒谎

<blockquote> <p><strong>Correction note:</strong> This post corrects a claim I made in two earlier posts. I previously reported "33/100 grounded-but-wrong" answers in my JQaRA RAG eval and framed them as a retrieval/generation failure worth fixing with hybrid search. After decomp…

报道来源 [1]

33个“有根据但错误”的答案是一个指标伪影：基于ID的上下文回忆如何在多答案数据集中撒谎

相关实体

相关话题