这件事后续应该关注什么？

后续官方回应或权威通报相关主体的进一步说明事件对普通用户和平台传播的持续影响

网页控制新范式：阿里开源 Page Agent，让大模型读懂 DOM

Q: 这件事后续应该关注什么？

后续官方回应或权威通报 相关主体的进一步说明 事件对普通用户和平台传播的持续影响

2小时前4 阅读

在浏览器自动化领域，开发者长期以来不得不依赖 Selenium、Playwright 或 Puppeteer 等外部工具，通过复杂的截图或底层协议来“强行”驱动网页。近日，阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库，为这一流程带来了全新的思路:它将浏览器自动化从外部驱动转变为页面内部的直接操作。 Page Agent 的

在浏览器自动化领域，开发者长期以来不得不依赖 Selenium、Playwright 或 Puppeteer 等外部工具，通过复杂的截图或底层协议来“强行”驱动网页。近日，阿里巴巴开源了一款名为 Page Agent 的 JavaScript 客户端库，为这一流程带来了全新的思路:它将浏览器自动化从外部驱动转变为页面内部的直接操作。

网页控制新范式：阿里开源 Page Agent，让大模型读懂 DOM配图

Page Agent 的核心技术在于“DOM 脱水”。不同于传统方案需要将复杂的网页转化为多模态图片供 AI 识别，Page Agent 直接在网页内部运行，将实时 DOM 结构压缩为轻量化的“FlatDomTree”纯文本映射。这一技术创新使得模型无需处理繁重的视觉信息，仅凭精简的结构文本，就能精准定位并执行点击按钮、填写表单等指令。

网页控制新范式：阿里开源 Page Agent，让大模型读懂 DOM配图

对于开发者而言，这一方案具备明显的优势。由于 Page Agent 直接嵌入页面运行，它能无缝继承用户的 Cookie 和会话信息，免去了繁琐的后端对接与身份验证工作。该项目采用了模型无关的设计，支持任何兼容 OpenAI 接口的大语言模型。在实际应用场景中，如构建 SaaS 产品内的 AI 副驾、自动化表单处理，乃至提升应用的无障碍交互能力，Page Agent 都能提供极具性价比的落地方案。

网页控制新范式：阿里开源 Page Agent，让大模型读懂 DOM配图

尽管 Page Agent 在易用性上表现亮眼，但开发团队也强调了其技术边界:目前该库聚焦于单页面范围内的交互。同时，出于安全性考量，基于提示词的权限管控（如“禁止自动支付”）属于引导性限制，而非硬性逻辑隔离。因此，对于涉及资金划拨或数据修改等高风险操作，开发者仍需在服务端保留严格的校验机制。

目前，Page Agent 已在 GitHub 以 MIT 协议开源。对于希望快速在自有应用中内嵌 AI 操作能力，又不愿投入高昂多模态模型成本的团队来说，这无疑提供了一个高效且务实的工程选择。

要点速读

在浏览器自动化领域，开发者长期以来不得不依赖 Selenium、Playwright 或 Puppeteer 等外部工具

在浏览器自动化领域，开发者长期以来不得不依赖 Selenium、Playwright 或 Puppeteer 等外部工具
更多细节仍在持续更新中
更多细节仍在持续更新中