实体 RAGBench

RAGBench

PulseAugur coverage of RAGBench — every cluster mentioning RAGBench across labs, papers, and developer communities, ranked by signal.

总计 · 30天

2

90 天内 3

发布 · 30天

0

90 天内 0

论文 · 30天

2

90 天内 3

层级分布 · 90 天

主题

情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 3 条

RESEARCH · CL_128532 · Jul 5 · 10:35

新的GASP方法可检测RAG系统中的句子级幻觉

研究人员开发了一种名为扰动感知基础的敏感性（GASP）的新方法，用于检测检索增强生成（RAG）系统中的幻觉。与提供单一分数的先前方法不同，GASP能够识别答案中未被检索到的证据支持的特定句子。该技术衡量当支持性上下文被移除时，句子可能性的变化程度，从而区分基础内容和幻觉内容。
TOOL · CL_22929 · May 8 · 10:17

研究显示 RAG 系统准确率触及天花板，复杂查询处理困难

检索增强生成（RAG）系统面临性能瓶颈，即使是高级实现，在处理复杂的企业查询时准确率也难以超过 70-85%。尽管混合搜索和代理管道有所改进，RAG 的有效性仍受限于固有挑战，尤其是在法律和医疗保健等准确性至关重要的领域。最近的研究表明，即使是 GPT-5.5 等领先模型也表现出高幻觉率，而像 Westlaw 和 LexisNexis 这样的成熟法律 AI 工具在复杂任务上的准确率也显著下降，未能消除幻觉。
RESEARCH · CL_10120 · Apr 30 · 04:00

新方法将企业知识提炼为用于问答的可导航代理技能

研究人员开发了一种名为 Corpus2Skill 的新方法，通过允许 LLM 代理导航从文档语料库派生的分层技能目录来增强检索增强生成 (RAG)。这种方法使代理能够更好地理解语料库结构，从无益的搜索路径中回溯，并综合来自不同来源的信息。与现有的 RAG 方法相比，Corpus2Skill 在 WixQA 企业客户支持基准测试中表现出优越的性能，并在各种 RAGBench 子集上显示出强大的泛化能力，特别是在单领域、原子文档语料库方面。