
新智元报道
编辑:桃子
AI 组队自主开发时代来临!OpenAI Operator 和 Replit Agent 组队编程,仅在 5 个提示 90 分钟内完成了应用程序的开发。
无需人类插手,AI 智能体联手 AI 智能体竟完成了程序开发。
这简直太疯狂了!
最近,AI 开发者 Lamar 将 OpenAI Operator 和 Replit Agent 配对后,让其构建应用程序。
最不可思议的是,在实现过程中,仅仅用了 5 个提示,两个 AI 智能体竟像人类一样,互相合作、交换凭证,并开始测试。
最终,他们在 90 分钟之内完成了开发。
可以看到,左边 OpenAI Operator 光速执行搜索的同时,右边 Replit Agent 也在快速构建代码。
这个帖子瞬间在全网爆火,视频已有 140 万浏览量。
OpenAI 总裁转发后激动表示,「AI 智能体互动的初体验」。
开源 Brower-Use 构建智能体
无独有偶,另一位开发者 Shubham Saboo 构建了一个自主 3D Python 游戏可视化智能体团队,仅使用了浏览器和 DeepSeek R1 完成。
这个团队由 4 个 AI 智能体组成,它们在浏览器中自主合作——编写、运行并可视化游戏。
有网友表示,不知是否有开源模型,能够做这件事。
开发者给推荐了一个 Browser Use 的项目,这是专为控制 AI 浏览器打造的。
项目地址:https://github.com/browser-use/browser-use
它能够实现,将自己想要的物品加入购物车,然后结账。
再比如,让它阅读简历并找到机器学习相关的工作,保存到一个文件中,然后在新标签页中开始申请。
或者,让 AI 用谷歌邮箱给父亲写一封信,感谢他所做的一切,并将文档保存为 PDF。
又或是查找许可证为 cc-by-sa-4.0 的模特,并按 Hugging Face 上的最喜欢排序,将前 5 名保存到文件中。
快速启动
使用 pip(Python>=3.11):
pip install browser-use
安装 playwright:
playwright install
启动你的智能体:
from langchain_openai import ChatOpenAIfrom browser_use import Agentimport asynciofrom dotenv import load_dotenvload_dotenv () async def main ():agent = Agent (task="Go to Reddit, search for 'browser-use', click on the first post and return the first comment.",llm=ChatOpenAI (model="gpt-4o"),) result = await agent.run () print (result) asyncio.run (main ())
将你想使用的提供商的 API 密钥添加到 .env 文件中。
OPENAI_API_KEY=
使用 UI 测试
你可以通过一个 UI 仓库来测试浏览器使用,或者简单地运行 gradio 示例:
uv pip install gradiopython examples/ui/gradio_demo.py
除了 Browser Use,另一位网友还推荐了微软团队开发的 OmniParser V2 的项目,也是利用 AI 操控屏幕帮人类完成复杂任务。
这两者开发的主要区别在于,OmniParser V2 是图形用户界面自动化和屏幕解析,输入的是 UI 截图,输出的是大模型的结构化数据。
而 Browser Use 主要用在 debug 和代码导航,输入代码或程序执行文本,输出的是 debug 观点和导航。
两者侧重各有所不同,可依据实际使用场景择优选择。
AI 自主开发,震惊全网
2025 年,几乎所有科技大厂将赌注压在了智能体之上。
在巴黎 AI 行动峰会上,图灵奖得主 Yann LeCun 表示,Meta 将在明年推出,带有显示屏和肌电接口的智能眼镜。
完全增强现实眼镜将在几年内问世,届时,我们每个人都会管理一支由人类级智能的 AI 智能体组成的团队。
奥特曼在通常会议中表示,如果 AI 智能体只需 50 美分的计算成本,就能完成 5000 美元的工作,那么 AI 带来的经济机会规模将是「瓶装闪电。
学术界,也将智能体的研究作为一个重点。
前段时间,来自斯坦福团队研究人员通过多智能体强化学习(multi-agent RL),训练 LLM 掌握战略性社交推理,结果发现,使胜率比标准强化学习提升一倍。
论文地址:https://www.alphaxiv.org/abs/2502.06060
1997 年:深蓝(Deep Blue)击败卡斯帕罗夫(Kasparov)
2016 年:AlphaGo 精通围棋
2025 年:斯坦福研究人员攻克《Among Us》
另有微软团队开源了 OmniParser V2,可以将任何大模型转换为能够使用计算机的智能体。
以上 demo 中,两个 AI 分工协作的强大能力,让许多人窥见了另一个未来。
AI 研究员 David Shapiro 表示,这比人们想象的要重要得多。人类发现了「分工」这一概念,改变了人类文明。
从来都不会是一个智能体单打独斗,而是无数智能体协作,「分而治之」去搞定任何任务。
一位教授表示,「这只是未来疯狂场景的一瞥,成百上千的 AI 智能体协作解决极其复杂的问题,或执行通常需要整个组织的任务——速度和效率是现在的成千上万倍」。
AI 智能体时代已经到来!
参考资料: