实体
XBench-DeepSearch
XBench-DeepSearch
PulseAugur coverage of XBench-DeepSearch — every cluster mentioning XBench-DeepSearch across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
最近 · 第 1/1 页 · 共 2 条
-
Web2BigTable系统通过双层智能体架构增强LLM网络搜索能力
研究人员开发了Web2BigTable,一个新颖的双层多智能体系统,用于大规模互联网信息搜索和提取。该框架设有一个协调器,将任务分解以供低层工作智能体并行处理。通过一个持续的运行-验证-反思循环和一个共享工作空间,Web2BigTable增强了分解和执行能力,从而提高了数据一致性和覆盖范围。
-
DeepVerifier 研究引入通过测试时验证实现自演化 AI 代理
研究人员开发了 DeepVerifier,一个新颖的系统,通过在推理时实现自改进来增强深度研究代理 (DRAs) 的能力。这是通过一个基于评分标准的验证过程实现的,代理会根据潜在故障的结构化分类来评估自己的输出。该系统展示了显著的改进,在元评估 F1 分数上超越基线方法高达 48%,并在具有挑战性的基准测试中实现了 8-11% 的准确率提升。为了进一步支持研究界,已发布一个包含 4,646 个专注于验证的代理步骤的数据集。