研究人员推出了CutVerse,一个旨在评估GUI代理在媒体后期制作任务中能力的新基准。该基准包含Premiere Pro和Photoshop等七个专业应用中的180多个复杂任务,需要密集的跨模态交互。当前代理在这些真实的编辑工作流程上的成功率仅为36%,凸显了在长时程可靠性和领域特定规划方面的局限性。 AI
影响 CutVerse基准突显了当前GUI代理在复杂媒体编辑中面临的重大挑战,表明需要改进长时程规划和领域特定能力。
排序理由 该集群描述了一篇用于评估AI代理的新基准论文。[lever_c_demoted from research: ic=1 ai=1.0]
在 Hugging Face Daily Papers 阅读 →
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →