English(EN) GoClick: Lightweight Element Grounding Model for Autonomous GUI Interaction

GoClick 模型为设备端 AI 代理提供轻量级 GUI 元素定位

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-28 04:00

研究人员开发了 GoClick，这是一种新颖的轻量级视觉语言模型，专为资源受限设备上的精确 GUI 元素定位而设计。与现有的模型不同，GoClick 采用编码器-解码器架构和渐进式数据精炼流程，以显著减少的参数量实现高精度。这种方法使得 GUI 代理能够在设备端执行，提高延迟和性能，并在集成到设备-云协作框架时取得了成功。 AI

影响使代理能够进行设备端 GUI 交互，有望改善移动应用自动化和可访问性。

排序理由学术论文介绍了一种用于 GUI 元素定位的新型轻量级模型。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Hongxin Li, Yuntao Chen, Zhaoxiang Zhang · 2026-04-28 04:00

GoClick：用于自主 GUI 交互的轻量级元素定位模型

arXiv:2604.23941v1 Announce Type: new Abstract: Graphical User Interface (GUI) element grounding (precisely locating elements on screenshots based on natural language instructions) is fundamental for agents interacting with GUIs. Deploying this capability directly on resource-con…

报道来源 [1]

GoClick：用于自主 GUI 交互的轻量级元素定位模型

相关实体

相关话题