PulseAugur
实时 15:19:44
实体 DRA Failure Taxonomy

DRA Failure Taxonomy

PulseAugur coverage of DRA Failure Taxonomy — every cluster mentioning DRA Failure Taxonomy across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_10202 ·

    DeepVerifier 研究引入通过测试时验证实现自演化 AI 代理

    研究人员开发了 DeepVerifier,一个新颖的系统,通过在推理时实现自改进来增强深度研究代理 (DRAs) 的能力。这是通过一个基于评分标准的验证过程实现的,代理会根据潜在故障的结构化分类来评估自己的输出。该系统展示了显著的改进,在元评估 F1 分数上超越基线方法高达 48%,并在具有挑战性的基准测试中实现了 8-11% 的准确率提升。为了进一步支持研究界,已发布一个包含 4,646 个专注于验证的代理步骤的数据集。