PulseAugur
实时 22:40:21
English(EN) Meet Alibaba’s Page Agent: A JavaScript In-Page GUI Agent That Controls Web Interfaces With Natural Language Through the DOM

阿里巴巴推出 Page Agent,用于浏览器内网页界面控制

阿里巴巴集团推出 Page Agent,这是一个开源的 JavaScript 库,能够直接在浏览器内通过自然语言控制网页界面。与在外部运行的传统自动化工具不同,Page Agent 集成到网页中,将实时文档对象模型(DOM)读取为文本。这种称为 DOM 脱水的方法将 DOM 转换为紧凑的文本地图,使小型语言模型能够精确识别和交互按钮和表单等元素。该库与模型无关,支持任何与 OpenAI 兼容的端点,最适合开发人员可以嵌入代码的应用程序,例如 SaaS 助手或智能表单填充工具。 AI

影响 通过利用浏览器内 DOM 操作,为网页应用程序中更集成的 AI 助手和自动化提供了支持。

排序理由 这是一个用于网页自动化的新开源库,并非前沿模型发布或重大的行业转变。

在 MarkTechPost 阅读 →

AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →

阿里巴巴推出 Page Agent,用于浏览器内网页界面控制

报道来源 [1]

  1. MarkTechPost TIER_1 English(EN) · Asif Razzaq ·

    Meet Alibaba’s Page Agent: A JavaScript In-Page GUI Agent That Controls Web Interfaces With Natural Language Through the DOM

    <p>Alibaba's Page Agent runs as client-side JavaScript inside the webpage. It reads the live DOM as text, then clicks and types from natural-language commands. No screenshots, no multimodal model, and no backend rewrite are required.</p> <p>The post <a href="https://www.marktechp…