研究人员引入了一种名为 UI-in-the-Loop (UILoop) 的新范式,以改进多模态大语言模型 (MLLMs) 理解和交互图形用户界面 (GUIs) 的方式。该方法将 GUI 推理视为一个涉及屏幕元素的循环过程,使 MLLMs 能够学习 UI 组件的定位、语义功能和用法,从而实现更精确和可解释的推理。为了评估这一点,开发了一个包含 26,000 个样本的新基准 UI Comprehension-Bench,该基准证明了 UILoop 在 UI 理解和 GUI 推理任务中的最先进性能。 AI
影响 增强了 LLM 在理解和交互图形用户界面方面的能力,有望改善自动化和用户体验。
排序理由 该集群包含一篇介绍 LLM GUI 推理新方法和新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →