PulseAugur
实时 16:06:36
English(EN) The 33 'grounded-but-wrong' answers were a metric artifact: how ID-based context recall lies on multi-answer datasets

RAG指标伪影导致错误的“有依据但错误”标记

一位研究人员在其对检索增强生成(RAG)系统的评估中发现了一个指标伪影,特别是在“有依据但错误”的答案方面。该问题源于一个基于ID的上下文召回指标,该指标在每查询有多个相关文档的数据集上被无意中设置为失败。当指标的分母是相关文档的数量而上下文窗口大小(k)较小时,召回阈值变得无法达到,从而错误地将许多答案标记为有问题。经过仔细检查和调整指标后,研究人员并未发现实际的检索失败,表明RAG管道的性能符合预期。 AI

影响 强调了在RAG系统中仔细选择指标以避免误解性能并有效指导开发的关键需求。

排序理由 该项目是一篇研究论文,详细介绍了AI系统评估中的方法论修正。[lever_c_demoted from research: ic=1 ai=1.0]

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

RAG指标伪影导致错误的“有依据但错误”标记

报道来源 [1]

  1. dev.to — LLM tag TIER_1 English(EN) · elvisyao007 ·

    33个“有根据但错误”的答案是一个指标伪影:基于ID的上下文回忆如何在多答案数据集中撒谎

    <blockquote> <p><strong>Correction note:</strong> This post corrects a claim I made in two earlier posts. I previously reported "33/100 grounded-but-wrong" answers in my JQaRA RAG eval and framed them as a retrieval/generation failure worth fixing with hybrid search. After decomp…