新智元报道
编辑:犀牛
随着 AI 智能体的爆发,Browser Use 异军突起,刚刚融资 1700 万美元。它能让 AI 智能体轻松地「读懂」网站并自动完成复杂任务,引领了一波 AI 应用热潮。
AI 智能体可能还没有一个大家都认可的定义,但这并不妨碍一大堆创业公司争相打造智能体工具,来自动化处理各种任务。
其中一家名为 Browser Use 的公司尤其吸引开发者与投资人的关注,因为他们的工具能使智能体更容易地「读懂」网站。
据最新报道,Browser Use 刚融了一笔 1700 万美元的种子轮资金,由 Felicis 的 Astasia Myers 领投,Paul Graham、A Capital 和 Nexus Venture Partners 跟投。此次融资之前还没被报道过。
Browser Use 是 Y Combinator 2025 冬季班的一员,最近几个月随着智能体的爆火而名声大噪。
尤其是火出圈的 Manus 也用了 Browser Use 工具,一下子就把它的知名度推到了新高。
Browser Use 的创办人是 Magnus Müller 和 Gregor Zunic,他们去年通过苏黎世联邦理工学院的创业加速器创办了这个项目。
Müller 多年来一直在研究网页抓取工具,2024 年他在读数据科学硕士时认识了 Zunic。Müller 说,他们俩一块儿琢磨出了把网页抓取和数据科学结合起来的想法,打算让浏览器自己完成任务。
Müller 和 Zunic 花了五周时间做出了个 Browser Use 的 demo,结果一炮而红。后来,他们干脆把 Browser Use 开源了。
简单说,Browser Use 是把网站上的按钮和元素拆解成一种更容易理解、更像「文本」的格式给智能体用。
这能帮助 AI 智能体搞清楚网页有哪些选项,然后自主做出决策。
「好多智能体靠的是视觉系统,通过截图来浏览网站,但这过程中老出问题。」Müller 说,「我们把网站转化成智能体可以理解的东西,这种方法能让我们以更低的成本反复运行相同的任务。」
随着越来越多的 AI 公司想让他们的智能体跟网站交互得更顺畅,Müller 觉得 Browser Use 能成为满足这些需求的「底层技术」。
他还表示,现在 Y Combinator 冬季班里有 20 多家公司都在用 Browser Use 满足自己的需求。
有些公司还跑来问他们,怎样才能使得智能体更容易地浏览自己的网站?
Müller 说,「像 LinkedIn 这样的网站,总是改变网站的功能,智能体在这种情况就经常出错。」
Felicis 的 Myers 说,他们过去几年一直在关注 AI 智能体领域,而 Browser Use 就是一个很好的投资机会。
她说,Browser Use 的创始团队——以及他们开源为先的策略——彻底打动了自己。
「我们觉得网页 AI 智能体是下一个前沿技术,能真正使得人类任务实现端到端的自动化,」Myers 对 TechCrunch 说,「网页 AI 智能体就像是一座动态桥梁,连接着静态预训练模型与不断变化的数字世界,而这些静态模型往往只专注于文本。」
Browser Use:让智能体简单地浏览网页
Browser Use 可以使 AI 智能体简单地浏览网页。
它在 GitHub 上开源,许多项目都使用了它的功能,目前已经获得超过 47k 个 Star 了。
项目地址:https://github.com/browser-use/browser-use
Browser Use 通过提取网站的交互元素(如按钮、表单等),使 AI 能够自动化执行浏览器操作,例如填写表单、搜索信息或导航网页。
这对于开发 AI 驱动的网络智能体非常有用。
比如,它可以将商品添加到你的购物车,并完成结账。
甚至是阅读你的简历,然后帮你找工作!中途如果有需要,还会停下来等待你的指示。
它也可以帮你干活儿。
比如,让它在 Hugging Face 上查找具有 cc-by-sa-4.0 许可证的模型,然后按点赞数排序,将排名前 5 的模型保存到文件中。
从 MCP 到 Browser Use 的爆火
Browser Use 是随着智能体的快速发展而爆火起来的。
去 11 月,Anthropic 首次提出「模型上下文协议」,即 MCP,赋予了 Claude 模型超级能力,一次构建,让 AI 与工作流深度集成。
用通俗的话讲,MCP 就像是专为 AI 应用设计的通用接口,类似我们日常使用的 USB-C。
正如 USB-C 简化了不同设备与计算机的连接方式,MCP 简化了 AI 模型与数据、工具和服务之间的交互方式。
通过 MCP,AI 助手不仅能够「读懂」代码,还能「理解」团队讨论、涉及文档等外部信息,提供更加精准的回答。
今年 1 月,OpenAI 推出了 Operator,能够自主执行网络任务,如规划假期、填写表单或预订餐厅 (OpenAI Launches Operator)。
Operator 使用名为 Computer-Using Agent (CUA)的 AI 智能体,通过视觉界面控制网页浏览器,模拟人类点击、输入和滚动的操作。
这一工具展示了 AI 智能体在网络任务自动化中的潜力,但也需要用户在遇到复杂界面或验证码时介入。
差不多同一时间,Browser Use 也开源了,它被 Manus 团队集成到了 Manus 智能体中。
Manus 因其综合能力和友好的用户界面(如实时显示思考过程)而迅速走红,吸引了大量关注。
这直接推动了 Browser Use 知名度的提升。
参考资料: