新的DeskCraft基准测试AI代理处理复杂专业任务

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-03 04:00

研究人员推出了DeskCraft，这是一个新的基准，旨在评估桌面代理在复杂、长周期的专业任务和人在回路协作方面的能力。该基准包括创意和工程软件中的任务，需要超过50个执行步骤，并为中途和后续交换正式化了交互协议。初步评估显示，GPT-5.4在标准任务上达到了31.6%，在交互式任务上达到了27.6%，这凸显了在长周期工作流执行和主动澄清方面仍然存在的挑战。 AI

影响该基准将推动更强大的桌面AI代理在复杂、现实世界的专业任务中的发展。

排序理由该集群包含一篇介绍AI代理新基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Wenkai Wang, Tao Xiong, Jingchen Ni, Yunpeng Bao, Xiyun Li, Tianqi Liu, Hongcan Guo, Zilong Huang, Shengyu Zhang · 2026-06-03 04:00

DeskCraft：在专业工作流程和人工协作中对桌面代理进行基准测试

arXiv:2606.03103v1 Announce Type: new Abstract: Real-world professional desktop workflows in specialized creative and engineering software unfold over long horizons and often require human-in-the-loop coordination, where agents proactively seek necessary information and users pro…

报道来源 [1]

DeskCraft：在专业工作流程和人工协作中对桌面代理进行基准测试

相关实体

相关话题