HotpotQA · PulseAugur

新框架使 AI 代理能够在可验证的 Web 环境中自我改进

研究人员推出了 DeepSearch-Evolve，这是一个在 DeepSearch-World 环境中训练 Web 代理的自蒸馏框架。该框架旨在通过使代理能够从自身经验中改进，超越固定轨迹或弱强化学习信号，来克服代理训练中的挑战。DeepSearch-World 提供了一个可验证且确定性的环境，并支持可复现的工具，支持代理行为，如进度验证和故障恢复。使用此方法在没有外部蒸馏的情况下训练的 DeepSearch-World-9B 模型…

RESEARCH · CL_131316 · Jul 7 · 17:09

DynaKRAG框架通过学习证据控制增强多跳RAG

研究人员开发了DynaKRAG，一个用于改进多跳检索增强生成（RAG）的新型框架，通过学习控制证据获取。该系统将过程表述为对原子证据操作的状态条件控制，允许学习控制器选择最佳的下一步。在与Qwen2.5-7B-Instruct模型一起测试时，DynaKRAG在HotpotQA、2WikiMultiHopQA和Musique等基准测试中表现出卓越的性能，优于现有的受控基线。

RESEARCH · CL_128930 · Jul 7 · 04:00

新框架CurateEvo增强LLM Agent训练后数据策展 · 追踪2个来源

研究人员开发了CurateEvo，一个用于动态演进数据策展策略的新框架，以改进大型语言模型（LLM）Agent的训练后阶段。这种由失败驱动的方法通过分析失败的轨迹来迭代地优化策展方法，从而为微调和强化学习提供更有效和高效的数据准备。在ACEBench-Agent和tau^2-Bench等基准上的实验表明，CurateEvo的性能持续优于现有的策展技术，提高了Agent的性能并降低了开销。

TOOL · CL_120654 · Jul 1 · 18:01

AWS 发布受大脑记忆启发的 HippoRAG 框架以增强 RAG

AWS 推出了 HippoRAG，这是一个受人脑记忆系统启发的新的检索增强生成 (RAG) 框架。该方法利用知识图谱和个性化 PageRank 算法来改进多跳推理和跨文档信息集成，克服了标准 RAG 方法的局限性。该框架使用一系列 AWS 服务实现，包括用于 LLM 功能的 Amazon Bedrock、用于图数据库存储的 Amazon Neptune、用于图算法的 Amazon Neptune Analytics 以及用于向量表示的…

TOOL · CL_121058 · Jul 1 · 14:08

新框架使用贝叶斯不确定性来监控 RAG 管道

研究人员为 Agentic 检索增强生成 (RAG) 系统开发了一个新的框架，该框架结合了贝叶斯不确定性传播。这种方法允许 RAG 管道的不同阶段（如规划、评估和生成）产生不确定性信号。然后，这些信号通过贝叶斯网络传播，以估计整体系统不确定性并识别潜在的故障点。该框架使用 GPT-3.5-Turbo 和 GPT-4.1-Nano 在多跳问答任务上进行了测试，显示出监控 RAG 系统的潜力，尽管在特定场景下观察到了一些局限性。

TOOL · CL_121111 · Jul 1 · 10:12

新诊断工具改进 RAG 评估和上下文打包

研究人员推出了一款名为“answer-in-context”的新诊断工具，以更好地评估检索增强生成（RAG）系统。该诊断工具衡量正确答案是否保留在提供给 RAG 模型的有限上下文窗口内，比传统的召回率指标更有效。此外，该研究提出了一种构建读者上下文的方法，将其构建为一个有预算限制的子模最大化问题，该问题优化了相关性、覆盖率和多样性。这种方法在特定数据集和某些条件下显示出改进，尤其是在处理多跳推理和小型语言模型时。

TOOL · CL_119404 · Jul 1 · 04:00

新框架优化LLM代理提示以用于信息检索

研究人员开发了一个名为Contrastive Reflection的新迭代提示优化框架，旨在提高大型语言模型（LLM）代理在信息检索任务中的性能。该框架通过识别错误锚定的行为切片、整合成功示例和提出有针对性的编辑来专注于调试和改进提示。该系统旨在使提示修复更具可检查性和验证驱动性，在公开的HotpotQA检索增强问答设置中显示出准确性方面的显著提高。

TOOL · CL_117482 · Jun 30 · 04:00

新的RAG框架在预算限制下提高事实准确性

研究人员开发了D2R-RAG，一个旨在提高检索增强生成（RAG）系统事实准确性的新框架，特别是在资源受限的环境中。这种模型无关的方法使用轻量级的故障诊断来识别RAG输出中的事实错误，然后应用自适应修复策略。在FEVER和HotpotQA数据集上的实验表明，即使在严格的延迟和VRAM限制下，D2R-RAG与现有方法相比也提供了更高的可靠性和更好的准确性-效率权衡。

RESEARCH · CL_117090 · Jun 27 · 21:08

新研究探讨RAG在分块、冲突解决和鲁棒性方面的进展 · 追踪7个来源

多篇研究论文探讨了大型语言模型（LLM）的检索增强生成（RAG）系统的进展。一项研究评估了不同的分块策略，发现在学术文本上，基于聚类的语义分块并未优于更简单的方法。另一篇论文介绍了双置信度对比解码（DCCD），用于处理检索文档中的冲突信息，在多文档问答方面表现有所提高。此外，研究提出了PRA-RAG，用于可证明的鲁棒聚合以抵抗检索投毒，以及AB-RAG，用于自适应预算以提高答案的可靠性。最后，一项研究调查了RAG中引用归属的机制解释，…

RESEARCH · CL_111509 · Jun 24 · 23:22

ProvenAI框架增强AI生成答案的透明度

研究人员推出ProvenAI，一个旨在增强检索增强问答系统透明度的框架。该框架在三个不同层面衡量透明度：答案正确性、引用保真度以及引用来源对生成输出的影响。在HotpotQA基准测试的实验中，ProvenAI实现了53.53%的答案准确率和71.55%的引用保真度得分，揭示了一个“引用影响差距”，即引用的来源并非总是显著影响答案。

TOOL · CL_105177 · Jun 21 · 21:46

新的RAG框架提高了多步问答的准确性和效率

研究人员推出了一种新颖的框架——基于地面增量规划的RAG（GDP-RAG），旨在提高检索增强生成（RAG）系统中多步问答的效率和准确性。与之前会传播错误或生成过多推理步骤的旧方法不同，GDP-RAG将计算重点放在识别和解决信息差距上。该方法包括初步检索以地面化规划、一个专门请求缺失信息的差距条件提示，以及一个将子查询与证据联系起来的结构化轨迹。在HotpotQA和MuSiQue等数据集上的实验表明，与PAR-RAG和KnowTrace…

TOOL · CL_104777 · Jun 20 · 00:04

RAG压缩评估存在缺陷，掩盖了模型性能差异

arXiv上发表的一篇新研究论文指出了检索增强生成（RAG）压缩评估中的一个关键缺陷。研究表明，固定的压缩方法会掩盖语言模型之间显著的性能差异，导致排名具有误导性。这是因为压缩通过过滤噪声来使较弱的模型受益，但通过删除有用细节来损害较强的模型，从而模糊了各种基准和领域中真实的Reader缩放能力。

TOOL · CL_104621 · Jun 19 · 15:50

本地 7B 模型研究解构 agentic RAG 以用于多跳问答

研究人员对 agentic 检索增强生成 (RAG) 系统进行了消融研究，特别关注使用本地 7B 参数模型 Qwen2.5-7B-Instruct 进行多跳问答。研究发现，使用倒数排名融合 (reciprocal rank fusion) 的固定混合检索方法优于自适应路由 (adaptive routing)，并且两次检索迭代捕获了大部分性能提升，更深的循环收益递减。查询分解 (query decomposition) 和交叉编码器重…

RESEARCH · CL_104630 · Jun 19 · 00:00

CalVerT 通过遥测校准增强 LLM 代理，提升问答性能

研究人员推出了一种新颖的方法 CalVerT，用于增强大型语言模型 (LLM) 代理在知识密集型问答任务中的表现。CalVerT 通过校准的自我置信度和基础验证器分数来增强代理，从而更清晰地了解其当前的知识状态。这种遥测有助于代理避免做出未经支持的回答，并减少冗余信息检索，从而在 2WikiMultiHopQA、WiTQA 和 HotpotQA 等基准测试中提高准确性和效率。

TOOL · CL_93540 · Jun 16 · 04:00

新的SAG架构通过动态SQL连接增强LLM知识检索

一篇新论文介绍了SAG（SQL-Retrieval Augmented Generation），一种旨在增强大型语言模型访问外部知识能力的架构。与依赖密集相似性检索的传统RAG方法不同，SAG使用SQL连接查询在查询时动态地将相关数据块链接到本地超边。这种方法避免了预先构建的、静态知识图谱的需求，并支持增量更新和扩展。该系统在HotpotQA、2WikiMultiHopQA和MuSiQue等涉及多跳推理的基准测试中展示了最先进的性能，…

TOOL · CL_81149 · Jun 9 · 15:06

AI代理利用ReAct范式实现自主任务执行

AI代理正成为大型语言模型的主导应用范式，从简单的聊天机器人发展到能够自主感知、推理和行动。这些代理利用思考、行动和观察的循环，通常基于ReAct范式，与外部工具交互并自我纠正。这使得它们能够执行多步任务、访问信息并适应反馈，克服了早期推理方法的局限性。

RESEARCH · CL_82058 · Jun 9 · 08:36

潜在记忆将问答令牌使用量减少 3 倍至 10 倍

研究人员开发了一种名为潜在记忆的新方法，以改进面向资源受限环境的问答系统。该方法将文本和图像等多模态证据压缩成单个潜在令牌。通过在统一的潜在空间中运行，潜在记忆显著减少了令牌消耗，与传统的基于检索的系统相比，使用的令牌数量减少了 3 倍至 10 倍，同时在各种问答基准测试中保持了有竞争力的性能。

RESEARCH · CL_78351 · Jun 8 · 16:00

LEVI 系统以极低的成本提供 AlphaEvolve 功能

一个名为 LEVI 的新开源系统已被开发出来，以显著降低的成本（据称便宜高达 35 倍）来模拟 AlphaEvolve 的功能。LEVI 的核心原则是，通过优化的搜索架构和智能路由，小型语言模型可以实现与大型模型相当或更优的结果。该系统在代码和提示优化任务中表现强劲，在 ADRS 和 IFBench 等基准测试中超越了现有框架，同时使用的计算资源更少。

TOOL · CL_77202 · Jun 8 · 04:00

新方法预测并缓解 AI 裁决中的顺序敏感性

研究人员开发了一种名为量化鞅违规 (QMV) 的新方法，以解决在用于循证决策的 Transformer 模型中存在的顺序敏感性问题。该方法通过形式化期望-实现差距来解决不可靠答案的问题，其中训练在证据排列上最小化预期的描述长度，而固定的顺序保持位置敏感。该方法引入了如信任比特 (B2T) 和幻觉风险 (RoH) 等指标，以帮助确定模型何时应提供答案或弃权，并在多个数据集上显示出有希望的结果。

RESEARCH · CL_79450 · Jun 8 · 00:00

新的大语言模型上下文压缩技术提高了效率和准确性

研究人员正在开发用于大语言模型上下文压缩的新方法，以提高效率和性能。一种名为“Telegraph English”的方法将检索到的段落重写为结构化的实体-关系语句，在问答任务上的表现优于传统的压缩技术。另一种方法 Sentinel 使用注意力探测来解码大语言模型的上下文利用情况，从而实现高效压缩，并在较小的模型上取得了显著的提升。此外，潜在上下文语言模型（LCLMs）提供了一个端到端的编码器-解码器框架，提高了长上下文推理和代理任务的…