阿里巴巴集团推出 Page Agent,这是一个开源的 JavaScript 库,能够直接在浏览器内通过自然语言控制网页界面。与在外部运行的传统自动化工具不同,Page Agent 集成到网页中,将实时文档对象模型(DOM)读取为文本。这种称为 DOM 脱水的方法将 DOM 转换为紧凑的文本地图,使小型语言模型能够精确识别和交互按钮和表单等元素。该库与模型无关,支持任何与 OpenAI 兼容的端点,最适合开发人员可以嵌入代码的应用程序,例如 SaaS 助手或智能表单填充工具。 AI
影响 通过利用浏览器内 DOM 操作,为网页应用程序中更集成的 AI 助手和自动化提供了支持。
排序理由 这是一个用于网页自动化的新开源库,并非前沿模型发布或重大的行业转变。
- Alibaba Group
- Browser Usage
- Document Object Model
- FlatDomTree
- Javascript
- MIT License
- OpenAI
- Page Agent
- @page-agent/core
- @page-agent/page-controller
- PageController
- playwright
- puppeteer
- selenium
- SimulatorMask
- TypeScript
AI 生成摘要 · Google Gemini · 来自 1 个来源。 我们如何撰写摘要 →