实体 Computer Use Agents

Computer Use Agents

PulseAugur coverage of Computer Use Agents — every cluster mentioning Computer Use Agents across labs, papers, and developer communities, ranked by signal.

Show in brief

总计 · 30天

90 天内 6

发布 · 30天

90 天内 0

论文 · 30天

90 天内 5

层级分布 · 90 天

主题

情绪 · 30 天

2 天有情绪数据

最近 · 第 1/1 页 · 共 6 条

RESEARCH · CL_107758 · Jun 23 · 12:46

新的强化学习框架使用视觉语言模型进行图形用户界面代理监督

研究人员开发了一种新的计算机使用代理（CUA）强化学习框架，该框架利用自主视觉语言评估进行监督。通过使用视觉语言模型根据最终屏幕截图和指令判断任务完成情况，该方法解决了在开放式桌面环境中获取可扩展奖励信号的挑战。该框架将评估者的反馈建模为嘈杂的二元奖励通道，并使用经过噪声校正的奖励估计器进行近端策略优化，从而在各种模拟环境中成功率得到显著提高。
SIGNIFICANT · CL_90098 · Jun 14 · 11:20

Anthropic 的 Claude 3.5 Sonnet 速度大幅提升；WeaveBench 揭示了代理的局限性

Anthropic 发布了 Claude 3.5 Sonnet，一款新 AI 模型，其速度是前代 Claude 3 Opus 的两倍，同时保持或提高了性能。这一进步对于需要快速响应和高吞吐量的应用具有重要意义。与此同时，一个名为 WeaveBench 的新基准测试被引入，用于评估旨在与计算机交互的 AI 代理。初步测试表明，当前前沿模型在 WeaveBench 上的通过率仅为 41.2%，凸显了开发能够有效导航图形和命令行界面以完成复…
RESEARCH · CL_82084 · Jun 5 · 00:00

新的HiViG批评者通过历史和视觉提升AI代理的GUI性能

研究人员开发了HiViG，一个旨在提高计算机使用代理（CUAs）在复杂图形用户界面环境中性能的新颖框架。HiViG通过结合过去行动的历史感知和视觉基础来检测错误，从而解决了现有批评者的局限性。这个多模态批评者在真实的GUI轨迹上进行训练，通过总结过去的成就并根据屏幕截图验证执行坐标来评估行动，从而在有缺陷的行动发生之前阻止它们。
RESEARCH · CL_105143 · Jun 2 · 00:00

新研究解决计算机使用代理的安全性和效率问题 · 跟踪 6 个来源

近期研究正在探索计算机使用代理（CUAs）的安全性和效率。一篇论文介绍了 MisActBench 和一个名为 DeAction 的护栏，用于检测和纠正不当行为，显著降低了攻击成功率。另一项研究比较了 GUI 和 CLI 代理，发现虽然 GUI 代理最初表现更好，但经过技能增强的 CLI 代理可以实现更高的成功率。第三篇论文强调了隐私风险，介绍了 AgentCIBench 来评估 CUA 如何处理上下文完整性，并发现许多代理会在应用程序…
RESEARCH · CL_48787 · May 25 · 04:00

新框架旨在提高 AI 对用户意图的理解能力

两篇新研究论文介绍了一个用于理解和控制 AI 交互中用户意图的计算框架。第一篇《意图信号理论》将用户潜在意图与实际提示区分开来，并提出私有意图常常在翻译过程中丢失。第二篇《IntentScore》提出了一个面向计划的奖励模型，用于评估和改进 AI 代理在图形用户界面中执行的操作质量，并在任务成功率方面取得了显著的改进。一篇相关文章讨论了 AI 代理意图识别和路由的实际应用，强调了关键词匹配的局限性以及使用 LLM 进行更鲁棒的意图分类的优势。
TOOL · CL_29240 · May 12 · 17:59

新基准CUActSpot针对AI智能体的复杂交互

研究人员推出了CUActSpot，这是一个新的基准测试，旨在评估计算机使用智能体（CUAs）在多模态复杂且不频繁交互方面的能力。该基准测试解决了GUI操作中的长尾问题，即少数复杂交互导致大多数任务失败，并假设这是由于数据稀缺造成的。他们提出的数据合成流程生成场景、记录交互，并使用LLM创建指令和动作轨迹，从而使他们的Phi-Ground-Any-4B模型优于更大的开源模型。

新的强化学习框架使用视觉语言模型进行图形用户界面代理监督

Anthropic 的 Claude 3.5 Sonnet 速度大幅提升；WeaveBench 揭示了代理的局限性

新的HiViG批评者通过历史和视觉提升AI代理的GUI性能

新研究解决计算机使用代理的安全性和效率问题 · 跟踪 6 个来源

新框架旨在提高 AI 对用户意图的理解能力

新基准CUActSpot针对AI智能体的复杂交互