PulseAugur
实时 11:17:53
English(EN) LemonHarness Technical Report

新的LemonHarness框架提升了LLM代理在长任务上的性能

研究人员开发了LemonHarness,一个旨在提高大型语言模型(LLM)代理在执行扩展任务时的稳定性和性能的新执行框架。该框架建立了明确的执行边界,在定义的空间内管理状态更改操作,并整合了模型调用、工具执行和规则知识。LemonHarness还包含一个时间感知机制,将预算限制暴露给模型,从而更好地重新平衡工作。在与GPT-5.3-CodeX和GPT-5.5测试时,LemonHarness在Terminal-Bench 2.0基准测试中取得了显著的准确性提升。 AI

影响 该框架可以提高LLM代理在复杂、多步任务中的可靠性和效率。

排序理由 该集群是一份技术报告,详细介绍了用于LLM代理的新框架,发布在arXiv上。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的LemonHarness框架提升了LLM代理在长任务上的性能

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Kailong Ren, Fubo Sun, Jiachen Liu, Liu Yang, Zimo Yin, Jiaying Li, Congli Yin, Ming He, Yu Huo, Jiawei Liu, Zeping Chen, Yubin Huangfu, Ronghua Li, Yixuan Wu, Xing Su, Yanzhi Xu, Likang Wu, Hongke Zhao, Lei Zhang, Xiaohui Geng, Jianping Fan ·

    LemonHarness Technical Report

    arXiv:2606.24311v1 Announce Type: new Abstract: As large language model (LLM) agents are applied to longer tasks, they increasingly modify workspace state across multiple rounds of iteration. However, agents typically observe only tool outputs and log fragments, while the actual …