摘要:本周,初创公司 Browser Use 宣布完成 1700 万美元融资,由 Felicis Ventures 领投,A Capital、Nexus Ventures、Y Combinator、Paul Graham、Liquid2、SV Angel、Pione
本周,初创公司 Browser Use 宣布完成 1700 万美元融资,由 Felicis Ventures 领投,A Capital、Nexus Ventures、Y Combinator、Paul Graham、Liquid2、SV Angel、Pioneer Fund 等跟投。
不少公司已经在尝试开发智能体工具来自动处理各类在线任务。Browser Use 就是其中之一。这款由 AI 大模型驱动的浏览器自动化代理,仅靠两名创始人,从构想到在 Hacker News 上发布,仅用了四天,然后在短短几个月里拿下 1,700 万美元融资。更令人惊讶的是,这个项目的核心,仅仅是 8000 行开源代码。
两名学生,
从构想到发布仅用了 4 天
这家公司是“闪电创业”,从零开始,在几个月的时间里迅速崛起。
Browser Use 的故事始于苏黎世联邦理工学院的学生项目之家加速器,这是 Gregor Zunic 和 Magnus Müller 的创意。Müller 本人一直致力于网络抓取工具的研究,并于 2024 年结识了Žunič,当时二人正在攻读数据科学硕士学位。
互联网作为世界上最大的非结构化信息来源,对于 AI 代理而言,其“可读性”至关重要。网络信息不断更新,使其成为新鲜信息的重要来源。然而,对于 AI 代理来说,浏览网页并非易事,需要完成移动鼠标光标、点击按钮、填写表格等复杂任务。
目前,AI 代理领域正迅速升温,吸引了大型科技公司和创新型初创公司的纷纷入局:
OpenAI 的 Operator,于 2025 年 1 月发布,面向 ChatGPT Pro 订阅用户($200/ 月),专注于消费级 Web 自动化Convergence 的 Proxy,于 2024 年 12 月发布,英国初创公司,提供免费试用(每天 5 次会话),或 $20/ 月的无限访问Google 的 Project Mariner,仍处于预览测试阶段,用户需加入候补名单申请访问Anthropic 的 Computer Use,于 2024 年 10 月发布, 预计将很快发布更新Microsoft 的 OmniParser V2,于 2025 年 2 月发布,是一个开源项目,用于将 UI 截图转换为结构化数据,使 LLM 能够更好地解析和交互网页然而,Magnus Müller 认为,当前大多数 AI 代理依赖于基于计算机视觉的方法来“观察”和浏览网页,这种方法存在速度慢、成本高,且效果不稳定的问题。
“许多代理依赖于视觉系统,试图通过屏幕截图来理解网站,但这种方式常常出现问题。”他解释道,“我们将网站转化为代理能够理解的结构化内容。这意味着我们可以以更低的成本重复执行相同的任务。”
简单来说,Browser Use 的核心技术是将每个网站转化为大型语言模型能够以确定性方式处理的结构化文本。通过这种方式,AI 代理可以准确理解每个网页上的可用选项,从而更轻松地做出决策。这家初创公司声称,其技术能够显著提升 AI 代理的网页浏览速度和 UI 交互的精确度。
Müller 回忆,他们对现有技术的深刻反思,催生了将网络抓取与数据科学相结合,以提升 AI 代理网页任务执行能力的创新想法。这成为了 Browser Use 技术发展的最初起点。
最初,Browser Use 还只是一个周末实验,联合创始人 Gregor Žunič 曾在 X 上分享道:“我们的初衷是探索大模型能否像人类一样浏览网页。令人惊喜的是,仅仅四天,我们就构建了一个初始原型,并将其发布在了 Hacker News 上。”
Žunič 透露,这个想法最初源于一次午餐时的头脑风暴,但很快被他们视为值得一试的研究方向:“我们可以先构建一个原型,放在 Hacker News 上,看看社区的反馈。” 没想到,原型发布后获得了热烈反响,这促使两位创始人迅速成立公司,几个月后便通过 Y Combinator 加速器获得了早期融资。
火爆似乎纯属偶然?!
Browser Use 目前有两个版本,一个是 Cloud Version,相比 OpenAI 的 Operator($200/ 月),Browser Use 的定价仅为 $30/ 月。一个是开源版本,免费并兼容多个 LLM 模型,包括 Gemini、Sonnet、Qwen 以及 DeepSeek-R1,并采用 MIT 许可。
有网友指出,这个项目仅有约 8000 行代码。从 GitHub 来看,该项目主要采用 Python 编写,其中 8.2% 的代码为 JavaScript。例如,较长的服务文件 service.py 有 1239 行代码,而用于构建 DomTree 的文件,含 1072 行 JS 代码。
Browser Use 在本质上是将网站的按钮和元素拆分成更易于智能体理解的“类文本”格式,这有助于智能体理解不同选项并自主做出决策。它能够提取网站中的元素(按钮、小部件等),让 AI 模型与 Web 内容交互。该工具可以管理多个浏览器选项卡,设置保存文件和执行数据库操作等,同时支持鼠标与键盘输入。
由于 Browser Use 基于网络爬取,它的功能里还包括应对爬虫相关挑战的部分。网站内容的频繁变动可能导致自动化脚本失效,而这通常是在问题发生后才被发现。与此同时,许多网站会采用防爬虫措施,要求用户更换 IP、解决验证码,并模拟人类行为以避免封禁。此外,使用 LLM 进行网页抓取时,还可能遇到速率限制、解析错误以及 API 密钥管理等问题。而在执行有价值的任务时,用户通常需要频繁登录,输入用户名和密码,这对许多人来说也是一个困扰。
为了解决这些问题,Browser Use 提供了代理轮换功能,帮助用户避免 IP 被封禁,并支持持久会话,确保用户仅需登录一次即可持续使用。
他们的发布略晚于 OpenAI Operator,但根据他们的自述,Browser Use 在 WebVoyager 基准测试中取得了 89.1% 的成功率,覆盖了 586 项不同的网页任务,高于 OpenAI Operator 的 87%。
目前,这个开源项目已有 50,000 个 GitHub 星星,也是增长最快的开源 AI 项目之一。
值得注意的是,Browser Use 的走红似乎也带有一定的偶然性。
其中一次爆发式增长,是在 AI 智能体平台 Manus 宣布推出的时候。当时一篇关于 Manus 使用 Browser Use 的帖子在 X 上获得了超 240 万浏览量和大量转发。Browser Use 成为 Manus 用于执行各类任务的组合之一,例如点击网站菜单和填写表格。
这让 Browser Use 的产品日均下载量从 3 月 3 日的约 5000 次增长至 3 月 10 日的 2.8 万次,一周内增长超过五倍。这次爆发式增长,使 Browser Use 迅速成为行业焦点。。
“那几天简直是疯狂。”Žunič回忆道,“我们成为了 GitHub 上最热门的代码仓库,下载量和用户转化率都达到了前所未有的高度。”
“我们的愿景是打造一个基础层,让开发者能够在此之上构建浏览器智能体。我们相信,到今年年底,Web 上的智能体数量将超过全球人口。”Žunič展望道。
这听起来可能过于乐观,但部分分析师预测,未来几个月 AI 智能体的市场确实会迎来大幅增长。根据 Research and Markets 公布的数据,该行业有望在 2029 年达到 420 亿美元。德勤则预计,到 2027 年,将有半数使用 AI 方案的企业部署 AI 智能体。
根据 Felicis Ventures 投资人 Astasia Myers 的说法,该公司过去几年来一直在积极关注 AI 智能体领域,而 Browser Use 似乎是扩大该公司投资组合的绝佳机会。她强调称,之所以决定出手资助,也是看中了 Browser Use 优秀的创始团队及其开源优先的指导思想。
Myers 在采访中总结道,“我们认为 Web AI 智能体将成为下一个真正有助于实现端到端自动化人工任务的前沿。Web AI 智能体将成为静态预训练大模型之间的动态桥梁,帮助这些模型在不断变化的数字环境中始终坚持以文本为学习中心。”
来源:商财洞察君