研究人员探索了用于利用多模态大语言模型(MLLM)的GUI视觉代理的Token剪枝策略。他们的研究表明,截图中经常被忽视的背景区域可以为推理界面状态提供关键的辅助线索。研究结果表明,与更复杂的方法相比,随机剪枝在保持空间结构方面出奇地有效。此外,代理受益于近因效应,当优先考虑最近的截图并压缩较旧的截图时,其表现相似。 AI
影响 通过优化Token使用,为设计更高效的GUI视觉代理提供了实用指导。
排序理由 关于优化GUI代理MLLM性能新方法的学术论文。
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →