技术调研:如何通过 MCP 操作网页 ,实现自动化工作?

360影视 欧美动漫 2025-06-03 17:11 2

摘要:核心功能: 将网页转为结构化文本(含元素位置) 执行 MCP 生成的 click(xpath), type(text) 等原子操作适用场景:电商比价、数据抓取、表单填写架构:LLM --MCP--> [适配层] --Python--> Playwright实现

以下是目前支持或适配 MCP(Model Context Protocol)协议、可实现网页自动化的开源工具与框架,按技术成熟度和集成深度分类整理:

核心功能: 将网页转为结构化文本(含元素位置) 执行 MCP 生成的 click(xpath), type(text) 等原子操作适用场景:电商比价、数据抓取、表单填写架构:LLM --MCP--> [适配层] --Python--> Playwright实现代码片段:# MCP 指令转 Playwright 动作def mcp_to_playwright(mcp_command):if "click" in mcp_command:selector = parse_selector(mcp_command)page.click(selector)elif "extract_table" in mcp_command:return page.eval_on_selector('table', parse_table)案例:自动将 "导出 Salesforce 上周客户列表" 转换为 Playwright 脚本项目链接: github.com/torantulino/autogpt-webMCP 接入点: 通过 tools/mcp_tool.py 注册网页操作能力 支持指令:name: web_navigationdescription: 根据MCP协议控制浏览器params: url: stringaction: [click, scroll, extract]集成代码:from langchain.agents import mcp_toolkittoolkit = mcp_toolkit.create_package(tools=["web_scraping", "form_autofill"])agent = initialize_agent(toolkit, llm, agent="mcp-aware")典型工作流
用户提问 → LLM 生成 MCP 指令 → 调用浏览器工具 → 返回结果模块推荐方案作用浏览器控制Playwright/Puppeteer执行点击、输入等底层操作页面理解BeautifulSoup + OCR将网页转为LLM可读的文本MCP ServerAnthropic官方SDK协议解析与工具路由动作映射器自定义适配层将 {"action":"click", "xpath": "//button"} 转 Playwright 调用工具MCP 原生支持学习成本复杂操作支持可视化调试Auto-GUI✅低★★★★☆无BrowserGym✅中★★★☆☆有Playwright桥接❌ (需适配)高★★★★★有AutoGPT-Web⚠️ (部分)极高★★☆☆☆无快速验证选 BrowserGym(20分钟跑通Demo) 企业级自动化用 Playwright桥接(稳定性高) 需复杂决策链的场景用 LangChain集成(如:"比价后下单最低价商品")

通过上述工具,开发者可直接用自然语言驱动网页操作,大幅提升自动化效率。重点推荐关注 Anthropic Auto-GUI 的开放进度,这将是未来最成熟的 MCP 网页自动化方案。

来源:小雨科技每日一讲

相关推荐