PulseAugur
实时 11:57:34
English(EN) MacArena: Benchmarking Computer Use Agents on an Online macOS Environment

新的 MacArena 基准测试在 macOS 上评估 AI 代理

研究人员开发了 MacArena,这是一个旨在评估在 macOS 环境中运行的计算机使用代理 (CUA) 的新基准。该基准包含 50 个应用程序中的 421 个任务,专门针对 Apple Silicon 并利用 Apple 的原生虚拟化框架。MacArena 旨在解决现有基准测试的局限性,这些基准测试通常侧重于基于 Linux 的系统,并且可能无法准确反映 macOS GUI 所带来的独特挑战。初步评估表明,在 MacArena 上的性能可能与其他基准测试存在显著差异,一些领先的模型在 macOS 原生任务上的能力大幅下降。 AI

影响 该基准测试有望推动能够驾驭不同操作系统环境的更通用 AI 代理的开发。

排序理由 该集群包含一篇介绍 AI 代理新基准的研究论文。

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Victor Muryn, Maksym Shamrai, Sofiia Mazepa, Yehor Khodysko ·

    MacArena: 在线macOS环境中对计算机使用代理进行基准测试

    arXiv:2606.06560v1 Announce Type: cross Abstract: Computer-use agents (CUAs) operate graphical user interfaces (GUIs) through vision and control primitives, and their capabilities have advanced rapidly, driven in part by standardized online evaluation benchmarks such as OSWorld, …