English(EN) How Auxiliary Reasoning Unleashes GUI Grounding in VLMs

新方法利用空间线索提升VLM的GUI基础能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-11 04:00

研究人员开发了三种零样本辅助推理方法，以提高视觉语言模型（VLMs）在图形用户界面（GUIs）中的基础能力。这些方法通过在输入图像中提供明确的空间线索，如轴、网格和标记的交叉点，使VLMs能够在没有昂贵微调的情况下更好地阐述其隐式空间理解。在四个GUI基础任务基准和七个VLMs上的实验表明，性能显著提升，其中一种方法Mark-Grid Scaffold将Gemini-3.1-Pro在ScreenSpot-v2上的准确率从11.72%提升到95.20%，并在ScreenSpot上取得了最先进的结果。 AI

影响增强了VLMs进行GUI交互的能力，可能加速自主代理的开发。

排序理由该集群包含一篇学术论文，详细介绍了改进VLM在特定任务上性能的新方法。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Weiming Li, Yan Shao, Jing Yang, Yujing Lu, Ling Zhong, Yuhan Wang, Min Yu, Tongxiao Ruan, Manni Duan · 2026-06-11 04:00

How Auxiliary Reasoning Unleashes GUI Grounding in VLMs

arXiv:2509.11548v2 Announce Type: replace Abstract: Graphical user interface (GUI) grounding is a fundamental task for building GUI agents. However, general vision-language models (VLMs) struggle with this task due to a lack of specific optimization. We identify a key gap in this…

报道来源 [1]

How Auxiliary Reasoning Unleashes GUI Grounding in VLMs

相关实体

相关话题