研究人员开发了三种零样本辅助推理方法,以提高视觉语言模型(VLMs)在图形用户界面(GUIs)中的基础能力。这些方法通过在输入图像中提供明确的空间线索,如轴、网格和标记的交叉点,使VLMs能够在没有昂贵微调的情况下更好地阐述其隐式空间理解。在四个GUI基础任务基准和七个VLMs上的实验表明,性能显著提升,其中一种方法Mark-Grid Scaffold将Gemini-3.1-Pro在ScreenSpot-v2上的准确率从11.72%提升到95.20%,并在ScreenSpot上取得了最先进的结果。 AI
影响 增强了VLMs进行GUI交互的能力,可能加速自主代理的开发。
排序理由 该集群包含一篇学术论文,详细介绍了改进VLM在特定任务上性能的新方法。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →