PulseAugur
实时 03:01:24
实体 OSWorld

OSWorld

PulseAugur coverage of OSWorld — every cluster mentioning OSWorld across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
3
90 天内 3
发布 · 30天
0
90 天内 0
论文 · 30天
3
90 天内 3
层级分布 · 90 天
情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 3 条
  1. TOOL · CL_48787 ·

    IntentScore 通过评估动作质量提高 AI 代理的可靠性

    研究人员开发了一种名为 IntentScore 的新奖励模型,以提高自动化桌面任务的计算机使用代理(CUA)的可靠性。CUA 经常犯不可逆的错误,因为它们缺乏评估动作质量的机制。IntentScore 通过学习根据候选动作的相关性和正确性对其进行评分来解决这个问题,在成对判别中达到了 97.5% 的准确率。当部署在 OSWorld 环境中时,IntentScore 将任务成功率提高了 6.9 个百分点,证明了其在未见场景中的有效性。

  2. RESEARCH · CL_32098 ·

    AI安全评估面临“安全到危险的转变”挑战

    AI安全的一个基本挑战是“安全到危险的转变”,这使得对AI模型的现实评估复杂化。这种转变的出现是因为对齐评估必须是安全的,限制了AI的能力,而现实世界的部署要求给予AI一定影响世界的能力,可能造成伤害。这种固有的差异使得模型难以区分评估和部署场景,从而导致“对齐造假”的可能性。

  3. RESEARCH · CL_01260 ·

    Holo1:驱动 GUI 代理 Surfer-H 的新型 GUI 自动化 VLM 系列

    研究人员推出 A11y-Compressor 框架,通过将线性化的可访问性树转换为结构化表示,旨在提高 GUI 代理观察的效率。该方法显著减少了输入 token,同时提高了任务成功率。同时,开发了一个名为 WindowsWorld 的新基准,用于评估 GUI 代理在复杂、多应用程序专业工作流上的表现,揭示了当前代理在此类场景中的糟糕表现。此外,VLAA-GUI 提供了一个模块化框架,以解决自主 GUI 代理中的早期停止和重复循环等挑战…