PulseAugur
实时 13:58:38
English(EN) What's Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning

新的 UI-in-the-Loop 范式增强了 LLM GUI 推理能力

研究人员引入了一种名为 UI-in-the-Loop (UILoop) 的新范式,以改进多模态大语言模型 (MLLMs) 理解和交互图形用户界面 (GUIs) 的方式。该方法将 GUI 推理视为一个涉及屏幕元素的循环过程,使 MLLMs 能够学习 UI 组件的定位、语义功能和用法,从而实现更精确和可解释的推理。为了评估这一点,开发了一个包含 26,000 个样本的新基准 UI Comprehension-Bench,该基准证明了 UILoop 在 UI 理解和 GUI 推理任务中的最先进性能。 AI

影响 增强了 LLM 在理解和交互图形用户界面方面的能力,有望改善自动化和用户体验。

排序理由 该集群包含一篇介绍 LLM GUI 推理新方法和新基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Songze Li, Xiaoke Guo, Tianqi Liu, Biao Yi, Zhaoyan Gong, Zhiqiang Liu, Huajun Chen, Wen Zhang ·

    What's Missing in Screen-to-Action? Towards a UI-in-the-Loop Paradigm for Multimodal GUI Reasoning

    arXiv:2604.06995v2 Announce Type: replace Abstract: Existing Graphical User Interface (GUI) reasoning tasks remain challenging, particularly in UI understanding. Current methods typically rely on direct screen-based decision-making, which lacks interpretability and overlooks a co…