English(EN) Computer-Use Agents Hit 66% on OSWorld. The Other 34% Is a Data Problem.

AI代理在桌面任务上实现 66% 的成功率，但数据差距仍然是一个挑战

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-23 02:04

计算机使用代理已取得显著进展，在 OSWorld 基准测试上的成功率在约一年内从 12% 跃升至 66%。微软的 Build 2026 主题演讲突显了这一快速进步，将 PC 定位为代理操作系统，并开源了 Microsoft Agent Framework。然而，剩余 34% 的失败率表明，这些代理在处理常见的桌面任务时仍然面临困难，这通常是由于接地性、效率低下以及缺乏明确的任务完成或错误检测信号。作者认为，这些失败主要是数据问题而非模型问题，这意味着改进训练数据是代理进一步发展的关键。 AI

影响强调了改进训练数据对于提高 AI 代理在实际桌面任务中的可靠性和效率至关重要。

排序理由该项目基于基准测试结果和行业趋势，讨论了 AI 代理的当前状态和局限性，提供了分析，而不是宣布新产品或研究突破。

在 dev.to — LLM tag 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

dev.to — LLM tag TIER_1 English(EN) · SyncSoft.AI · 2026-06-23 02:04

计算机代理在 OSWorld 上达到 66%。另外 34% 是数据问题。

<p>Two numbers from the last few weeks tell the whole story of where computer-use agents actually are.</p> <p>The first is from Microsoft's Build 2026 keynote, where the company reframed the PC itself as an "agentic operating system" and open-sourced the Microsoft Agent Framework…

报道来源 [1]

计算机代理在 OSWorld 上达到 66%。另外 34% 是数据问题。

相关实体

相关话题