研究人员开发了 MacArena,这是一个旨在评估在 macOS 环境中运行的计算机使用代理 (CUA) 的新基准。该基准包含 50 个应用程序中的 421 个任务,专门针对 Apple Silicon 并利用 Apple 的原生虚拟化框架。MacArena 旨在解决现有基准测试的局限性,这些基准测试通常侧重于基于 Linux 的系统,并且可能无法准确反映 macOS GUI 所带来的独特挑战。初步评估表明,在 MacArena 上的性能可能与其他基准测试存在显著差异,一些领先的模型在 macOS 原生任务上的能力大幅下降。 AI
影响 该基准测试有望推动能够驾驭不同操作系统环境的更通用 AI 代理的开发。
排序理由 该集群包含一篇介绍 AI 代理新基准的研究论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →