研究人员开发了两种新框架:回顾性约束优化 (RHO) 和 HarnessFix,旨在提高 AI 代理的可靠性和性能。RHO 通过分析过去的轨迹并根据自我偏好选择最有效的更新,采用一种自监督方法来优化代理的约束。另一方面,HarnessFix 通过将执行跟踪编译成专门的中间表示来诊断和修复代理约束中的缺陷,从而实现有针对性的修复。这两种方法都在各种基准测试(包括软件工程任务)上显著提高了代理性能,而无需外部验证数据。 AI
影响 这些方法通过实现无需外部监督的自我改进和有针对性的缺陷修复,为提高 AI 代理性能和可靠性提供了新途径。
排序理由 两篇介绍改进 AI 代理新方法的学术论文。
- AppWorld
- HarnessFix
- LLM agents
- SWE-Bench Verified
- Terminal-Bench 2.0 Verified
- AI agents
- Retrospective Harness Optimization
- SWE-Bench Pro
AI 生成摘要 · Google Gemini · 来自 4 个来源。 我们如何撰写摘要 →