GUI agents · PulseAugur

新的红队测试方法利用 GUI 智能体漏洞

研究人员开发了一种新的黑盒红队测试方法，称为语义级 UI 元素注入，用于测试 GUI 智能体的鲁棒性。该技术将无害的 UI 元素叠加到屏幕截图中，以误导智能体，绕过传统的安全措施，如白盒访问和提示注入防御。对 19 个模型的实验表明，这种策略性注入比随机方法更有效，即使在最初攻击成功后，也能显著地持续重定向智能体的注意力。

TOOL · CL_128706 · Jul 7 · 04:00

新指标揭示 GUI 代理优先考虑结构而非像素

研究人员开发了一种名为感知-融合差距 (Perception-Fusion Gap) 的新指标，用于诊断多模态 GUI 代理如何形成关于其界面状态的信念。该指标衡量代理在遇到冲突信息时，在多大程度上依赖视觉像素而非结构化数据（如 DOM 或辅助功能树）。在来自三个供应商的五个模型中，代理倾向于优先选择结构化数据而非像素信息，这导致状态信念错误和后续任务失败。

TOOL · CL_119560 · Jul 1 · 04:00

新的 GUIDE 框架使用视频检索减少 GUI 代理中的领域偏差

研究人员开发了 GUIDE，一个旨在减轻 GUI 代理中领域偏差的新颖框架。这个即插即用的系统利用实时网络视频检索和自动注释管道，在不改变现有参数或架构的情况下，为代理提供特定领域的知识。GUIDE 的方法包括分析教程视频的字幕以识别相关内容，然后利用这些信息来增强代理对 UI 元素和任务规划的理解，从而提高实际性能。

TOOL · CL_115644 · Jun 29 · 04:00

新的 GAIA 系统训练批评模型以提高 GUI 代理性能

研究人员开发了 GAIA，一个数据飞轮系统，旨在通过训练直观批评模型 (ICM) 来提高 GUI 代理的性能。该 ICM 评估代理操作的正确性，选择成功概率更高的操作。然后，系统使用此批评模型收集精炼数据，进而训练出更强大的批评模型，形成一个自我改进的循环。实验表明，这种迭代过程提高了各种 GUI 代理的测试时性能。

RESEARCH · CL_107916 · Jun 23 · 12:57

VisCritic 框架通过视觉状态比较增强 GUI 代理

研究人员推出了 VisCritic，一个新颖的视觉过程奖励框架，旨在提高 GUI 代理的性能。与以往仅依赖文本推理的方法不同，VisCritic 直接在视觉特征空间中比较动作前后的屏幕截图，以验证代理的动作。该方法利用了 Siamese 视觉 transformer 和一个动作感知 Critic Head 来评估动作成功率、任务进度和错误类型，提供了一个即插即用的解决方案，可改进基准指标并提供视觉诊断线索。

TOOL · CL_77283 · Jun 8 · 04:00

新的EVA框架演进GUI代理的语义攻击

研究人员开发了EVA，一个旨在识别多模态大语言模型（MLLMs）驱动的GUI代理中语义漏洞的演进框架。该方法侧重于操纵代理的语义理解而非视觉感知，攻击成功率高达85%。EVA在模型的潜在空间中快速演进对抗性载荷，揭示了一个悖论：对齐训练反而可能使代理更容易受到欺骗性语义线索的影响。

RESEARCH · CL_77162 · Jun 5 · 08:17

StainFlow通过新颖的奖励模型改进GUI智能体训练

研究人员引入了StainFlow，这是一种新颖的过程奖励模型，旨在增强GUI智能体的训练。该方法通过提供更精细的训练信号来解决强化学习中反馈稀疏的问题。StainFlow利用实体污点追踪来客观地分离任务阶段，并动态链接局部证据以提高关键节点验证的准确性。

RESEARCH · CL_72502 · Jun 4 · 15:57

新的 DragOn 数据集提升 GUI 代理的拖放能力

研究人员推出了 DragOn，这是一个新的基准和数据集，旨在提高 GUI 代理在处理基于拖拽的交互方面的性能。该数据集包含 286,000 张训练截图和 350 万个训练任务，涵盖四个领域：文本高亮、单元格选择、元素调整大小和滑块操作。对包括 GPT、Claude、Qwen 和 Kimi 在内的各种专有和开源模型进行的评估表明，在 DragOn 上进行微调可以增强它们在复杂拖放和类似 GUI 操作方面的能力。

RESEARCH · CL_70430 · Jun 3 · 10:25

新的基准测试在动态短视频平台上测试AI智能体

研究人员推出了“LivingScreen”，这是一个旨在评估动态短视频平台上GUI智能体的新基准。与假设屏幕静态的先前基准不同，LivingScreen考虑了连续播放的内容，要求智能体就观察和交互做出实时决策。对当前前沿模型的评估显示，在成本准确性方面均未达到人类水平，常见故障包括观察时间不当，凸显了未来GUI智能体在观察控制方面需要改进。

RESEARCH · CL_58867 · May 28 · 00:00

新的基准和数据合成提升GUI代理的错误恢复能力

研究人员开发了一个新的基准和数据合成框架，以提高GUI代理的错误恢复能力。该基准GUI-RobustEval包含1200多个测试用例，用于系统地衡量代理从自身错误中恢复的程度。此外，一个名为RoTS的框架生成了80万个数据点，用于训练代理处理各种错误模式及其相应的恢复步骤。使用这些数据微调的模型，如RoTS-32B，已显示出显著的性能提升，并在OSWorld等基准测试中取得了最先进的成果。

RESEARCH · CL_56344 · May 27 · 15:51

MaskClaw系统为GUI代理提供边缘侧隐私保护

研究人员开发了MaskClaw，这是一种新颖的、面向GUI代理的边缘侧隐私仲裁器。该系统旨在通过在数据发送到云端之前在本地做出隐私决策来保护屏幕截图中的敏感信息。MaskClaw利用本地视觉证据和用户特定策略来决定在处理屏幕截图之前是允许、屏蔽还是请求确认，从而增强依赖屏幕数据的应用程序的隐私性。

RESEARCH · CL_56333 · May 27 · 00:00

新方法 GUI-CIDER 提升 GUI 代理知识

研究人员开发了 GUI-CIDER，一种新颖的中间训练方法，旨在增强使用多模态大型语言模型构建的 GUI 代理的世界知识。该方法通过因果内化和密度感知示例重选明确内化 GUI 操作知识，解决了传统训练后方法的局限性。GUI-CIDER 合成数据，通过优先考虑因果结构和减少冗余来精炼数据，然后使用这些精炼的数据进行中间训练。实验表明，使用此方法训练的代理在 GUI 理解和任务成功率方面有了显著提高。

RESEARCH · CL_48788 · May 24 · 00:00

新框架和基准测试推动移动 GUI 代理能力发展

研究人员开发了几个新的框架和基准测试，以推进移动 GUI 代理的能力。STAMP 为虚拟环境中的代理引入了显式内存训练，提高了任务的韧性。PhoneWorld 提供了一个可扩展的管道，用于将真实的移动轨迹转换为可控环境，用于训练和评估。MIRAGE 强调了 VLM 驱动的代理中的一个漏洞，展示了如何通过用户生成的内容实现提示注入。MobileExplorer 专注于通过并行探索 UI 元素和使用上下文提示来加速这些代理的设备上推理。M…

TOOL · CL_41190 · May 19 · 07:35

新的CutVerse基准揭示GUI代理在媒体编辑任务中存在困难

研究人员推出了CutVerse，一个旨在评估GUI代理在媒体后期制作任务中能力的新基准。该基准包含Premiere Pro和Photoshop等七个专业应用中的180多个复杂任务，需要密集的跨模态交互。当前代理在这些真实的编辑工作流程上的成功率仅为36%，凸显了在长时程可靠性和领域特定规划方面的局限性。

TOOL · CL_49337 · May 19 · 02:13

新的 AQuaUI 方法大幅减少 GUI 代理视觉令牌

研究人员开发了 AQuaUI，一种新颖的方法，用于减少大型多模态模型 (LMM) 在与图形用户界面 (GUI) 交互时处理的视觉令牌数量。这种无需训练的技术在 GUI 屏幕截图上构建自适应四叉树，用单个令牌表示信息密度低的区域，同时保留空间关系。AQuaUI 还包含一种利用连续屏幕截图来维持时间一致性的条件算法，从而提高了 GUI 代理模型的准确性-效率权衡。

TOOL · CL_38685 · May 18 · 08:36

DocOS基准测试GUI智能体使用在线文档的能力

研究人员推出了DocOS，这是一个旨在评估GUI智能体在主动使用在线文档完成任务方面的能力的新基准。目前的GUI智能体在处理需要训练数据中不存在的程序性知识的任务时遇到困难，常常诉诸于低效的试错法。DocOS旨在评估智能体从在线文档中搜索、理解和执行指令的能力，并强调信息检索和知识落地是开发自演化GUI智能体的关键挑战。

TOOL · CL_28329 · May 11 · 10:49

基于代码和文本训练的新世界模型指导移动GUI代理

研究人员开发了一种新颖的方法，通过在四种模态上训练世界模型来增强移动GUI代理：增量文本、完整文本、基于扩散的图像和可渲染代码。这些模型在相关基准测试中取得了最先进的性能，证明了不同表示形式在预测行动后果方面的效用。研究发现，虽然可渲染代码为数据构建提供了高保真度，但基于文本的反馈对于在线执行更为稳健，并且生成的轨迹可以改善代理性能，尽管存在分布变化。