研究人员推出 PAGER,这是一种专为图形用户界面中的精确几何控制而设计的新型 AI 代理。与容忍附近像素选择的现有模型不同,PAGER 可处理需要点级精度和几何感知验证的任务。它解决了模型擅长动作类型预测但无法完成任务的重大“语义-执行鸿沟”,在任务成功率方面比通用基线提高了 4.1 倍。 AI
影响 为点精确 GUI 控制建立了新的最先进水平,有可能改善复杂图形任务的自动化。
排序理由 该集群包含一篇详细介绍新型 AI 模型和基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →