研究人员开发了HiViG,一个旨在提高计算机使用代理(CUAs)在复杂图形用户界面(GUI)环境中性能的新框架。HiViG通过结合历史感知和视觉基础来解决现有批评者的局限性。该框架的多模态批评者从真实的GUI轨迹中学习,以抽象化过去的交互并结合视觉上下文评估动作,从而在执行前减少错误。在Web、移动和桌面基准测试中的测试表明,HiViG的性能显著优于之前的批评者,提高了Qwen3-VL-32B和Gemini-3-Flash等模型的成功率。 AI
影响 增强了AI代理在复杂GUI交互中的能力,有可能改善跨平台的自动化和用户体验。
排序理由 详细介绍新AI框架及其评估的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 2 个来源。 我们如何撰写摘要 →