研究人员推出了LivingScreen,这是一个旨在评估动态短视频平台上的GUI代理的新基准。与假设屏幕静态的现有代理不同,LivingScreen代理必须在内容持续播放的环境中运行,需要决定观察的时机和持续时间。对当前前沿模型的评估显示,在准确性和成本效益方面,没有一个能达到人类的性能,常见的失败包括观察过多或不足,这突显了未来GUI代理在改进观察控制方面存在需求。 AI
影响 该基准测试突显了当前GUI代理处理动态环境的能力方面的一个关键差距,可能指导未来的研究朝着更具适应性和效率的AI系统发展。
排序理由 该集群包含一篇介绍用于评估AI代理的新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →