PulseAugur
实时 08:23:35
English(EN) CAPTCHA Solving for Native GUI Agents: Automated Reasoning-Action Data Generation and Self-Corrective Training

新的GUI代理ReCAP通过自纠错解决验证码

研究人员开发了ReCAP,一种能够解决验证码挑战同时保持通用GUI交互性能的新型GUI代理。这是通过一个自动化的数据收集管道实现的,该管道生成交互轨迹和推理痕迹,并特别纳入了源自失败尝试的自纠错数据。与基础代理相比,ReCAP在验证码求解成功率方面表现出显著提高,同时不影响其执行通用GUI任务的能力。 AI

影响 这项研究可能使更强大的AI代理能够处理验证码等安全措施,从而可能提高基于Web的任务的自动化水平。

排序理由 该集群包含一篇详细介绍AI代理新方法和系统的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

新的GUI代理ReCAP通过自纠错解决验证码

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Yuxi Chen, Haoyu Zhai, Chenkai Wang, Rui Yang, Lingming Zhang, Gang Wang, Huan Zhang ·

    面向原生 GUI 智能体的 CAPTCHA 求解:自动化推理-行动数据生成与自纠正训练

    arXiv:2603.23559v2 Announce Type: replace-cross Abstract: GUI agents are rapidly shifting from multi-module pipelines to end-to-end, native vision-language models (VLMs) that perceive raw screenshots and directly interact with digital devices. Despite rapid progress on general GU…