PulseAugur
实时 08:17:09
实体 Terminal-Bench 2.0 Verified

Terminal-Bench 2.0 Verified

PulseAugur coverage of Terminal-Bench 2.0 Verified — every cluster mentioning Terminal-Bench 2.0 Verified across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
1
90 天内 1
发布 · 30天
0
90 天内 0
论文 · 30天
1
90 天内 1
层级分布 · 90 天
主题
情绪 · 30 天

1 天有情绪数据

最近 · 第 1/1 页 · 共 1 条
  1. RESEARCH · CL_72413 ·

    新框架通过自我分析提高 AI 代理的可靠性

    研究人员开发了两种新框架:回顾性约束优化 (RHO) 和 HarnessFix,旨在提高 AI 代理的可靠性和性能。RHO 通过分析过去的轨迹并根据自我偏好选择最有效的更新,采用一种自监督方法来优化代理的约束。另一方面,HarnessFix 通过将执行跟踪编译成专门的中间表示来诊断和修复代理约束中的缺陷,从而实现有针对性的修复。这两种方法都在各种基准测试(包括软件工程任务)上显著提高了代理性能,而无需外部验证数据。