English(EN) PRInTS: Reward Modeling for Long-Horizon Information Seeking

新型PRInTS模型增强AI代理的长时信息检索能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 04:00

研究人员开发了PRInTS，一种新的生成式奖励模型，旨在提高AI代理在长时间内检索信息的能力。与之前对短期任务提供二元判断的模型不同，PRInTS为每个步骤提供密集的多维度评分，考虑工具解释和输出信息量等因素。它还将长上下文压缩成摘要，同时保留评估所需的重要信息。在FRAMES和GAIA等基准测试上的实验表明，PRInTS显著增强了各种代理的信息检索能力，甚至优于更大、更前沿的模型。 AI

影响增强AI代理在复杂、多步骤信息收集方面的能力，可能提高需要广泛工具使用和推理的任务的性能。

排序理由这是一篇描述新模型及其在基准测试上评估的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Jaewoo Lee, Archiki Prasad, Justin Chih-Yao Chen, Zaid Khan, Elias Stengel-Eskin, Mohit Bansal · 2026-06-11 04:00

PRInTS: Reward Modeling for Long-Horizon Information Seeking

arXiv:2511.19314v2 Announce Type: replace Abstract: Information-seeking is a core capability for AI agents, requiring them to gather and reason over tool-generated information across long trajectories. However, such multi-step information-seeking tasks remain challenging for agen…

报道来源 [1]

PRInTS: Reward Modeling for Long-Horizon Information Seeking

相关实体

相关话题