PulseAugur
实时 22:06:20
English(EN) PAGER: Bridging the Semantic-Execution Gap in Point-Precise Geometric GUI Control

PAGER AI 代理掌握精确几何 GUI 控制

研究人员推出 PAGER,这是一种专为图形用户界面中的精确几何控制而设计的新型 AI 代理。与容忍附近像素选择的现有模型不同,PAGER 可处理需要点级精度和几何感知验证的任务。它解决了模型擅长动作类型预测但无法完成任务的重大“语义-执行鸿沟”,在任务成功率方面比通用基线提高了 4.1 倍。 AI

影响 为点精确 GUI 控制建立了新的最先进水平,有可能改善复杂图形任务的自动化。

排序理由 该集群包含一篇详细介绍新型 AI 模型和基准的学术论文。[lever_c_demoted from research: ic=1 ai=1.0]

在 arXiv cs.AI 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

PAGER AI 代理掌握精确几何 GUI 控制

报道来源 [1]

  1. arXiv cs.AI TIER_1 English(EN) · Cheng Tan ·

    PAGER:弥合点精确几何 GUI 控制中的语义-执行鸿沟

    Large vision-language models have significantly advanced GUI agents, enabling executable interaction across web, mobile, and desktop interfaces. Yet these gains largely rely on a forgiving region-tolerant paradigm, where many nearby pixels inside the same component remain valid. …