研究人员调查了检索增强问答(RAG)流程中观察到的收益,特别关注了“重写器”LLM的作用。他们的发现表明,F1分数观察到的改进并非完全归因于更好的证据策展,而是显著受到重写上下文中文本中“黄金答案”字符串存在的影响。实验表明,移除黄金答案会急剧降低性能,而在不存在黄金答案的重写中注入它,则能在各种模型和数据集上带来显著的收益。 AI
影响 揭示了答案存在(而不仅仅是证据质量)驱动RAG性能,暗示需要新的评估方法。
排序理由 该集群包含一篇详细介绍LLM行为实验结果的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →