English(EN) AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees

新的 AQuaUI 方法大幅减少 GUI 代理视觉令牌

作者 PulseAugur 编辑部 · [1 个来源] · 2026-05-19 02:13

研究人员开发了 AQuaUI，一种新颖的方法，用于减少大型多模态模型 (LMM) 在与图形用户界面 (GUI) 交互时处理的视觉令牌数量。这种无需训练的技术在 GUI 屏幕截图上构建自适应四叉树，用单个令牌表示信息密度低的区域，同时保留空间关系。AQuaUI 还包含一种利用连续屏幕截图来维持时间一致性的条件算法，从而提高了 GUI 代理模型的准确性-效率权衡。 AI

影响降低了 GUI 代理的计算负载，可能实现更快、更高效的 AI 驱动的用户界面。

排序理由该集群包含一篇详细介绍 AI 模型效率新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.MA (Multiagent) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。我们如何撰写摘要 →

报道来源 [1]

arXiv cs.MA (Multiagent) TIER_1 English(EN) · Muhao Chen · 2026-05-19 02:13

AQuaUI：用于 GUI 代理的自适应四叉树视觉令牌缩减

Large Multimodal Models (LMMs) have recently emerged as promising backbones for GUI-agent models, where high-resolution GUI screenshots are introduced to the prompts at each iteration step. However, these screenshots exhibit highly non-uniform spatial information density: large r…

报道来源 [1]

AQuaUI：用于 GUI 代理的自适应四叉树视觉令牌缩减

相关实体

相关话题