English(EN) What's Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning

新的 UI-in-the-Loop 范式增强了 LLM GUI 推理能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-06-02 04:00

研究人员引入了一种名为 UI-in-the-Loop (UILoop) 的新范式，以改进多模态大语言模型 (MLLMs) 理解和交互图形用户界面 (GUIs) 的方式。该方法将 GUI 推理视为一个涉及屏幕元素的循环过程，使 MLLMs 能够学习 UI 组件的定位、语义功能和用法，从而实现更精确和可解释的推理。为了评估这一点，开发了一个包含 26,000 个样本的新基准 UI Comprehension-Bench，该基准证明了 UILoop 在 UI 理解和 GUI 推理任务中的最先进性能。 AI

影响增强了 LLM 在理解和交互图形用户界面方面的能力，有望改善自动化和用户体验。

排序理由该集群包含一篇介绍 LLM GUI 推理新方法和新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Songze Li, Xiaoke Guo, Tianqi Liu, Biao Yi, Zhaoyan Gong, Zhiqiang Liu, Huajun Chen, Wen Zhang · 2026-06-02 04:00

屏幕到动作模型缺少什么？迈向多模态 GUI 推理的 UI 循环范式

arXiv:2604.06995v2 Announce Type: replace Abstract: Existing Graphical User Interface (GUI) reasoning tasks remain challenging, particularly in UI understanding. Current methods typically rely on direct screen-based decision-making, which lacks interpretability and overlooks a co…

报道来源 [1]

屏幕到动作模型缺少什么？迈向多模态 GUI 推理的 UI 循环范式

相关实体

相关话题