实体
computer-use agents
computer-use agents
PulseAugur coverage of computer-use agents — every cluster mentioning computer-use agents across labs, papers, and developer communities, ranked by signal.
总计 · 30天
2
90 天内 2
发布 · 30天
0
90 天内 0
论文 · 30天
2
90 天内 2
层级分布 · 90 天
情绪 · 30 天
2 天有情绪数据
最近 · 第 1/1 页 · 共 2 条
-
IntentScore 通过评估动作质量提高 AI 代理的可靠性
研究人员开发了一种名为 IntentScore 的新奖励模型,以提高自动化桌面任务的计算机使用代理(CUA)的可靠性。CUA 经常犯不可逆的错误,因为它们缺乏评估动作质量的机制。IntentScore 通过学习根据候选动作的相关性和正确性对其进行评分来解决这个问题,在成对判别中达到了 97.5% 的准确率。当部署在 OSWorld 环境中时,IntentScore 将任务成功率提高了 6.9 个百分点,证明了其在未见场景中的有效性。
-
New benchmark CUActSpot targets complex interactions for AI agents
Researchers have introduced CUActSpot, a new benchmark designed to evaluate computer-use agents (CUAs) on complex and infrequent interactions across multiple modalities. The benchmark addresses the long-tail issue in GU…