研究人员推出了DeskCraft,这是一个新的基准,旨在评估桌面代理在复杂、长周期的专业任务和人在回路协作方面的能力。该基准包括创意和工程软件中的任务,需要超过50个执行步骤,并为中途和后续交换正式化了交互协议。初步评估显示,GPT-5.4在标准任务上达到了31.6%,在交互式任务上达到了27.6%,这凸显了在长周期工作流执行和主动澄清方面仍然存在的挑战。 AI
影响 该基准将推动更强大的桌面AI代理在复杂、现实世界的专业任务中的发展。
排序理由 该集群包含一篇介绍AI代理新基准的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →