PulseAugur
实时 10:12:04
English(EN) AQuaUI: Visual Token Reduction for GUI Agents with Adaptive Quadtrees

新的 AQuaUI 方法大幅减少 GUI 代理视觉令牌

研究人员开发了 AQuaUI,一种新颖的方法,用于减少大型多模态模型 (LMM) 在与图形用户界面 (GUI) 交互时处理的视觉令牌数量。这种无需训练的技术在 GUI 屏幕截图上构建自适应四叉树,用单个令牌表示信息密度低的区域,同时保留空间关系。AQuaUI 还包含一种利用连续屏幕截图来维持时间一致性的条件算法,从而提高了 GUI 代理模型的准确性-效率权衡。 AI

影响 降低了 GUI 代理的计算负载,可能实现更快、更高效的 AI 驱动的用户界面。

排序理由 该集群包含一篇详细介绍 AI 模型效率新方法的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.MA (Multiagent) 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

报道来源 [1]

  1. arXiv cs.MA (Multiagent) TIER_1 English(EN) · Muhao Chen ·

    AQuaUI:用于 GUI 代理的自适应四叉树视觉令牌缩减

    Large Multimodal Models (LMMs) have recently emerged as promising backbones for GUI-agent models, where high-resolution GUI screenshots are introduced to the prompts at each iteration step. However, these screenshots exhibit highly non-uniform spatial information density: large r…