摘要:对于没有编程技术的小白来说,这些工具的学习曲线过于陡峭,而且大多缺乏足够的灵活性来应对不同网站的结构变化。
每天面对繁琐的网络任务时,总是花费大量时间在重复的点击、填表和导航操作上,这些工作既耗时又枯燥。
而现有的浏览器自动化工具通常需要编写繁琐的脚本,调试过程更是令人头疼。
对于没有编程技术的小白来说,这些工具的学习曲线过于陡峭,而且大多缺乏足够的灵活性来应对不同网站的结构变化。
今天要介绍的 Browser-use 项目完美解决了这一困境。
这是一个开源的浏览器控制工具,能让 AI 代理直接操作浏览器执行各种任务,无需复杂的编程知识。
只需用自然语言描述需求,AI 就能帮助完成从网上购物到职位申请等各种任务,大大简化了网络操作的自动化过程。
Browser-use 提供了一系列强大且易用的功能,让 AI 代理能够无缝控制浏览器:
浏览器自动化:AI 可以打开网页、点击按钮、填写表单、滚动页面等,就像真人用户一样操作浏览器。
任务执行能力:支持多种实用场景,包括:
自动完成网上购物(添加商品到购物车并结账)根据简历自动搜索并申请工作将 LinkedIn 联系人添加到 Salesforce 等 CRM 系统在 Google Docs 中创建和编辑文档简单易用的 API:提供简洁的 Python 接口,只需几行代码即可配置和启动 AI 代理。
云端托管选项:除了本地部署外,还提供云服务版本,无需任何设置即可使用。
丰富的示例库:包含大量实用场景的代码示例,便于快速上手和参考。
安装 Browser-use 非常简单,只需几步操作就能让 AI 为我们工作。整个过程对于有基本 Python 知识的用户来说非常友好。
1、首先确保系统安装了 Python 3.11 或更高版本,然后使用 pip 安装 browser-use:
pip install browser-use2、安装必要的浏览器自动化工具 Playwright:
playwright install3、创建一个 .env 文件,添加所需的 API 密钥(例如 DeepSeek R1 的 API 密钥):
使用 Browser-use 开始自动化浏览器任务只需几行代码:
from langchain_openai import ChatOpenAIfrom browser_use import Agentfrom pydantic import SecretStrimport asyncio# Initialize the modelllm=ChatOpenAI(base_url='https://api.deepseek.com/v1', model='deepseek-reasoner', api_key=SecretStr(api_key))async def main:agent = Agent(task="比较 gpt-4o 和 DeepSeek-V3 的价格",llm=llm,use_vision=False)await agent.runasyncio.run(main)只需在 task 参数中描述想要执行的任务,AI 代理就会启动浏览器并自动完成操作。
同时可以根据需要更换不同的 LLM 模型,或添加更多自定义功能。
在日常工作中,我们可以用它自动处理重复性网络操作,批量申请职位,或协助进行电子商务操作,大大提升工作效率,节省宝贵时间。
这个开源工具为我们提供了更便捷、更高效的网络任务处理方式,让 AI 成为真正的得力助手!
来源:IT可乐