一套新的基准 RAB 和 LRB 已被开发出来,用于评估检索增强生成(RAG)系统,重点关注审计性和时间数据准确性。RAB,即可重放审计基准,评估系统重放决策的能力,这与欧盟人工智能法案关于记录保存的文章一致。LRB,即生命周期检索基准,测试系统在特定时间点检索有效数据的能力,而不仅仅是最新的信息。这些基准被设计为确定性的,并且可以在本地运行,同时提供配套代码和预印本。 AI
影响 这些基准提供了一种标准化的方法来测试 RAG 系统的审计性和时间数据准确性,这对于监管合规和可靠的人工智能应用至关重要。
排序理由 该项目描述了用于 RAG 系统的新研究基准的创建和发布,包括配套代码和预印本。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →