网页控制新范式:阿里开源 Page Agent,让大模型读懂 DOM

在浏览器自动化领域,开发者长期以来不得不依赖 Selenium、Playwright 或 Puppeteer 等外部工具,通过复杂的截图或底层协议来“强行”驱动网页。近日,阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库,为这一流程带来了全新的思路:它将浏览器自动化从外部驱动转变为页面内部的直接操作。 Page Agent 的
在浏览器自动化领域,开发者长期以来不得不依赖 Selenium、Playwright 或 Puppeteer 等外部工具,通过复杂的截图或底层协议来“强行”驱动网页。近日,阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库,为这一流程带来了全新的思路:它将浏览器自动化从外部驱动转变为页面内部的直接操作。

Page Agent 的核心技术在于“DOM 脱水”。不同于传统方案需要将复杂的网页转化为多模态图片供 AI 识别,Page Agent 直接在网页内部运行,将实时 DOM 结构压缩为轻量化的“FlatDomTree”纯文本映射。这一技术创新使得模型无需处理繁重的视觉信息,仅凭精简的结构文本,就能精准定位并执行点击按钮、填写表单等指令。

对于开发者而言,这一方案具备明显的优势。由于 Page Agent 直接嵌入页面运行,它能无缝继承用户的 Cookie 和会话信息,免去了繁琐的后端对接与身份验证工作。该项目采用了模型无关的设计,支持任何兼容 OpenAI 接口的大语言模型。在实际应用场景中,如构建 SaaS 产品内的 AI 副驾、自动化表单处理,乃至提升应用的无障碍交互能力,Page Agent 都能提供极具性价比的落地方案。

尽管 Page Agent 在易用性上表现亮眼,但开发团队也强调了其技术边界:目前该库聚焦于单页面范围内的交互。同时,出于安全性考量,基于提示词的权限管控(如“禁止自动支付”)属于引导性限制,而非硬性逻辑隔离。因此,对于涉及资金划拨或数据修改等高风险操作,开发者仍需在服务端保留严格的校验机制。
目前,Page Agent 已在 GitHub 以 MIT 协议开源。对于希望快速在自有应用中内嵌 AI 操作能力,又不愿投入高昂多模态模型成本的团队来说,这无疑提供了一个高效且务实的工程选择。
要点速读
在浏览器自动化领域,开发者长期以来不得不依赖 Selenium、Playwright 或 Puppeteer 等外部工具
- 在浏览器自动化领域,开发者长期以来不得不依赖 Selenium、Playwright 或 Puppeteer 等外部工具
- 更多细节仍在持续更新中
- 更多细节仍在持续更新中