研究人员开发了LemonHarness,一个旨在提高大型语言模型(LLM)代理在执行扩展任务时的稳定性和性能的新执行框架。该框架建立了明确的执行边界,在定义的空间内管理状态更改操作,并整合了模型调用、工具执行和规则知识。LemonHarness还包含一个时间感知机制,将预算限制暴露给模型,从而更好地重新平衡工作。在与GPT-5.3-CodeX和GPT-5.5测试时,LemonHarness在Terminal-Bench 2.0基准测试中取得了显著的准确性提升。 AI
影响 该框架可以提高LLM代理在复杂、多步任务中的可靠性和效率。
排序理由 该集群是一份技术报告,详细介绍了用于LLM代理的新框架,发布在arXiv上。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →