PulseAugur
实时 09:09:33

新的DeskCraft基准测试AI代理处理复杂专业任务

研究人员推出了DeskCraft,这是一个新的基准,旨在评估桌面代理在复杂、长周期的专业任务和人在回路协作方面的能力。该基准包括创意和工程软件中的任务,需要超过50个执行步骤,并为中途和后续交换正式化了交互协议。初步评估显示,GPT-5.4在标准任务上达到了31.6%,在交互式任务上达到了27.6%,这凸显了在长周期工作流执行和主动澄清方面仍然存在的挑战。 AI

影响 该基准将推动更强大的桌面AI代理在复杂、现实世界的专业任务中的发展。

排序理由 该集群包含一篇介绍AI代理新基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Wenkai Wang, Tao Xiong, Jingchen Ni, Yunpeng Bao, Xiyun Li, Tianqi Liu, Hongcan Guo, Zilong Huang, Shengyu Zhang ·

    DeskCraft:在专业工作流程和人工协作中对桌面代理进行基准测试

    arXiv:2606.03103v1 Announce Type: new Abstract: Real-world professional desktop workflows in specialized creative and engineering software unfold over long horizons and often require human-in-the-loop coordination, where agents proactively seek necessary information and users pro…