一篇新的研究论文调查了用于评估检索增强生成(RAG)系统归因的自动指标的可靠性。研究发现,包括词汇、嵌入和BERTScore基线在内的常用归因指标在不同数据集和评估构造上表现不一致。指标排名可能显著反转,导致具体的决策成本,即基于平均性能选择指标可能比固定一个评分器更差。虽然LLM裁判提供了替代方案,但它们成本更高且不确定,将验证负担转移了,而不是消除了它。 AI
影响 强调了在RAG系统中对归因指标进行特定数据集验证的必要性,影响了如何可靠地评估LLM输出。
排序理由 该集群包含一篇详细介绍LLM评估指标研究结果的学术论文。
在 arXiv cs.IR (Information Retrieval) 阅读 →
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →