English(EN) GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

新的GUI-AIMA框架增强了多模态LLM的基础能力

作者 PulseAugur 编辑部 · [1 个来源] · 2026-07-01 04:00

研究人员开发了GUI-AIMA，一个用于改进多模态大语言模型（MLLMs）中图形用户界面（GUI）基础的新型框架。这种基于注意力的方法将内在多模态注意力与逐块基础信号对齐，实现了更高效、数据量更少（data-light）的训练。GUI-AIMA-3B仅用509k个样本就达到了3B模型中的最先进性能，展示了显著的数据效率。 AI

影响增强了多模态LLM理解和交互图形用户界面的能力，可能提升代理（agent）的能力。

排序理由该集群包含一篇详细介绍用于GUI基础的新模型和框架的研究论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.AI TIER_1 English(EN) · Shijie Zhou, Viet Dac Lai, Hao Tan, Jihyung Kil, Wanrong Zhu, Changyou Chen, Ruiyi Zhang · 2026-07-01 04:00

GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

arXiv:2511.00810v4 Announce Type: replace-cross Abstract: Graphical user interface (GUI) grounding is a key capability for computer-use agents, mapping natural-language instructions to actionable regions on the screen. Existing Multimodal Large Language Model (MLLM) approaches ty…

报道来源 [1]

GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding

相关实体

相关话题