English(EN) Rethinking Token Pruning for Historical Screenshots in GUI Visual Agents: Semantic, Spatial, and Temporal Perspectives

重新思考GUI视觉代理中历史截图的Token剪枝：语义、空间和时间视角

作者 PulseAugur 编辑部 · [1 个来源] · 2026-04-27 04:00

研究人员探索了用于利用多模态大语言模型（MLLM）的GUI视觉代理的Token剪枝策略。他们的研究表明，截图中经常被忽视的背景区域可以为推理界面状态提供关键的辅助线索。研究结果表明，与更复杂的方法相比，随机剪枝在保持空间结构方面出奇地有效。此外，代理受益于近因效应，当优先考虑最近的截图并压缩较旧的截图时，其表现相似。 AI

影响通过优化Token使用，为设计更高效的GUI视觉代理提供了实用指导。

排序理由关于优化GUI代理MLLM性能新方法的学术论文。

在 arXiv cs.CV 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.CV TIER_1 English(EN) · Daiqiang Li, Zihao Pan, Zeyu Zhang, Ronghao Chen, Huacan Wang, Honggang Chen, Haiyun Jiang · 2026-04-27 04:00

Rethinking Token Pruning for Historical Screenshots in GUI Visual Agents: Semantic, Spatial, and Temporal Perspectives

arXiv:2603.26041v3 Announce Type: replace Abstract: In recent years, GUI visual agents built upon Multimodal Large Language Models (MLLMs) have demonstrated strong potential in navigation tasks. However, high-resolution GUI screenshots produce a large number of visual tokens, mak…

报道来源 [1]

Rethinking Token Pruning for Historical Screenshots in GUI Visual Agents: Semantic, Spatial, and Temporal Perspectives

相关实体

相关话题