1年智能体落地,3年获普利策奖,6年或引发危机!Django之父6大预测

  新智元报道

  编辑:KingHZ

  AI 发展日新月异,未来扑朔迷离。近日,Web 框架 Django 之父 Simon Willison,预测了未来1、3、6 年不同阶段的 AI 发展以及影响。

  AI 发展日新月异,可谓「乱花渐欲迷人眼」,很难预测未来的世界到底如何。

  而 Web 框架 Django 之父 Simon Willison,这一次他走出舒适区,大胆跨界预测未来 AI 发展趋势!

  在近日的播客中,他预测了未来1、3、6 年不同阶段的 AI 发展以及可能的结果。

  参加完播客之后,Simon Willison 把对未来的预测扩展为博客文章。

  主要预测如下:

  1. 一年内,除了编程和科研智能体,其他智能体难以落地。

  2. 三年内,某人将在 GenAI 工具辅助下,拿下普利策奖;在日常工作,记者熟练利用 LLM,处理数据;在个人数据保护上,法律取得实质性进展。

  3. 六年后,AI 将简化艺术创作,解放人类的艺术创意。但如果 AGI 取代大部分人类的工作,可能会引发大规模社会动荡,后果不堪设想。

  一年内智能体预测:第一部分

  在 2024 年,Simon 评论到「智能体」还没有真正发生。

  Simon 认为,在 2025 年将看到更多关于智能体的炒作,但结果将让大多数「智能体」的粉丝感到失望。

  在智能体(Agent)上,Simon 预见将有大量资金被白白浪费。

  「旅行智能体」不会成功

  如果问十个人,你会得到十个稍微不同的答案——Simon 收集并用 AI 总结了不同的答案。

  链接:https://gist.github.com/simonw/beaa5f90133b30724c5cc1c4008d0654

  为了简化论证,Simon 选了一个他认为不会实现的定义:可以代表用户去半自主行动的 AI 助手。

  Simon 把这个定义称为「旅行智能体」式的智能体,因为当描述「智能体」时,不知为何,人们总会联想到预定航班、酒店以及规划行程。

  让当前的 LLM 做出重要决策——比如花钱买什么——是一个非常糟糕的主意。

  它们不可靠,但更重要的是,它们太容易受骗了。

  如果你给 AI 助手一张信用卡,并放任它的行动,你要确保,在第一个声称提供最佳优惠的网站上, 它不会马上点击「购买」按钮!

  因为点击一下「购买」,就能把你的银行账户信息转给黑客,从而掏空你的「钱包」。

  而现在还无法避免这一点。

  之所以还没有看到 LLM 驱动的智能体,就是因为可靠性。

  Simon 对这点深信不疑,尽管自从 ChatGPT 首次发布以来,这个想法就吸引了大量关注。

  接下来的 12 个月,发布的模型中,只要有一个能完全避免这一点,Simon 都会喜出望外。

  因为他认为解决受骗问题非常难,难得出奇。

  一年内:编程和科研智能体行得通

  Simon 相信有两类「智能体」确实可行,而且事实已经证明它们确实有效。

  编程助手

  第一类是编程助手——让 LLM 写代码、执行并根据结果修改代码,不断循环。

  在 2023 年 3 月或 4 月,Simon 第一次看到这种模式:OpenAI 用 Code Interpreter 演示了这一点。

  ChatGPT 可以利用 Python 解决问题:它会编写代码,并在安全沙箱中(可能是 Kubernetes)执行代码,然后根据输出或错误信息判断目标是否已达到。

  这种模式非常好,在 2023 年初的模型(最初使用的是 GPT-4)中效果非常好,今天依然如此。

  在同年 10 月,Claude 也发布了自己的版本(Claude Analysis,使用在浏览器中运行的 JavaScript),Mistral 和 Gemini 也有类似的功能,还有许多其他工具实现了相同的模式。

  科研助手

  第二类智能体是科研助手——LLM 能够多次搜索,收集信息,并将其整合成答案或者撰写报告。

  在这一领域,Perplexity 和 ChatGPT Search 已经运作了一段时间,但 Simon 印象最深刻的是 Google Gemini 的 Deep Research 工具。

  比如,他向 Deep Research 提出这样的问题:

Pillar Point Harbor 是北美西海岸最大的棕色鹈鹕栖息地之一。 找到其他的栖息地。

  Gemini 会起草计划,利用、谷歌搜索访问几十个网站,然后整合报告(并附上重要的引用),描述发现的内容。

  它给出的计划是:

Pillar Point Harbor 是北美西海岸最大的棕色鹈鹕栖息地之一。找到北美西海岸其他大的棕色鹈鹕栖息地。 1. 查找北美西海岸棕色鹈鹕栖息地的列表。 2. 查找关于棕色鹈鹕栖息地及其大小的研究论文或文章。 3. 查找来自鸟类观察组织或政府机构关于棕色鹈鹕栖息地的信息。 4. 将(3)中找到的栖息地大小与 Pillar Point Harbor 栖息地的大小进行比较。 5. 查找与棕色鹈鹕栖息地和其种群相关的新闻文章或最新报告。

  它挖掘了大量的细节,包括 2016-2019 年太平洋棕色鹈鹕调查报告中的 PDF 文件,而 Simon 最关心的就是这些——其中包含的列表让他很满意:

十大超级栖息地(通常栖息超过 500 只鹈鹕的地方): - 阿拉米达防波堤(Alameda Breakwater),加利福尼亚州(3,183) - 支柱点港(Pillar Point Harbor),加利福尼亚州(1,481) - 东沙岛(East Sand Island),俄勒冈州(1,121) - 阿诺新月州立公园(Ano Nuevo State Park),加利福尼亚州(1,068) - 萨利纳斯河口(Salinas River mouth),加利福尼亚州(762) - 博利纳斯泻湖(Bolinas Lagoon),加利福尼亚州(755) - 莫罗岩(Morro Rock),加利福尼亚州(725) - 莫斯兰丁(Moss landing),加利福尼亚州(570) - 克雷森特城港(Crescent City Harbor),加利福尼亚州(514) - Tomales 鸟岩(Bird Rock Tomales),加利福尼亚州(514)

  Simon 才知道,他所在的支柱点港(Pillar Point Harbor)是第二大栖息地!

  对 Simon 来说,利用当前的 LLM,完全可以自己构建科研助手。

  它们能够驱动工具,能提出相对浅显的研究计划(寻找新闻文章和研究论文)。而且如果搜索并收集到适当的上下文,它们就能合成合理的答案。

  Google 尤其擅长此道:他们拥有全球最大的网站搜索索引,而且 Gemini 模型的上下文可以包含 200 万 token。

  Simon 预计 Deep Research 会越来越好,并且吸引来大量竞争者。

  三年后:AI 辅助拿下普利策奖

  Simon 做了一个有点自利(self-serving)的预测:认为三年之内,有人将因由生成式 AI 工具辅助的调查报道而获得普利策奖。

  但并不是说 LLM 会写这篇文章!

  他依然认为,让 LLM 代替人写文章,是最无趣的应用之一。

  之所以称这个预测是自利的,是因为 Simon 希望他能推动这一事件的发生!

  他开源了数据新闻工具套件 Datasette,还在不断增加 AI 功能。

  比如,利用 LLM 来数据增强;从非结构化文本中,提取结构化数据并转化为表格。

  他的梦想是这些工具——或者类似的工具——能够被用于获奖的调查报道。

  他之所以选择三年这个时间,就是因为让人们普遍了解如何负责任地、有效地使用这些工具,并将应用于实际工作,需要这么长时间。

  LLM 并不是新闻业的天然的契合点:记者寻求真相,而 LLM 通常容易产生幻觉,捏造事实。

  但是,记者也非常擅长从不可信的来源中提取有用信息——这也是新闻工作的重要部分。

  一下两个领域,他认为 LLM 特别适合新闻业:

  • 结构化数据提取。如果利用《信息自由法》,成功获得了 1 万份 PDF 文件,那么需要有人或某些工具来阅读这些文件,并找到暗藏的故事。而 LLM 非常擅长处理大量信息,并整理出有意义的内容。它们可以生成线索,帮助找出值得深入调查的故事。

  • 编程辅助。编写代码、分析数据是现代数据新闻的重要部分——从 SQL 查询到数据清理脚本、定制网络抓取工具或可视化工具,都可以帮助从杂乱的信息中找到有价值的信号。但大多数报社并没有程序员团队:Simon 认为在三年内,将围绕这种模式构建足够强大的工具,能让非程序员记者在报道过程轻松使用这些工具。

  Simon 希望他自己能够开发这类工具!

  所以他对未来三年的具体预测是:有人将凭借少量的 LLM 辅助赢得普利策奖

  更普遍的预测是:三年后,大多数专业消息人士将 LLM 作为日常工作流的一部分,而且使用方式也越来越复杂,但大家却习以为常、熟视无睹。

  三年后:隐私法将落地

  另一个三年后的预测涉及隐私立法。

  定向广告和人们粘贴到模型的数据到底会发生什么,已经引起了人们的杯弓蛇影(往往是有理由的),而且还在不断增长。

  Simon 曾写过,苹果通过监听手机麦克风来定向广告,是「无法根除的阴谋论」。

  过去, 他也曾写过关于 AI 信任危机的文章:许多人拒绝相信模型并不会基于他们的输入数据进行训练,而且背后的公司已经反复否认。

  他认为,AI 行业本身将从立法中受益匪浅,特别是在明确用户提交数据训练方面,而更一般的科技行业,也亟需在数据保留和定向广告等方面制定更严格的规则。

  在未来四年,Simon 不指望美国联邦政府能通过相关立法,但预计,在州级或国际层面,会看到更多具有实际执行力的隐私法规

  Simon 希望不要因此产生新一代的 cookie 同意条款。

  六年后的乌托邦:令人称奇的艺术

  对于六年后的预测,Simon 选择了两个对立的预测,一个乐观的,一个悲观的。

  他认为六年足够长,人类会找到利用 AI 技术的方法,创作出真正伟大的艺术作品。

  Simon 不认为 GenAI 用于艺术创作——如图像、视频和音乐——能像基于文本的 LLM 那样,得到同等的尊重。

  生成式艺术工具很有趣,但它们对输出缺乏精细的控制。

  这大大限制了它们的实用性,现在这些工具只能生成一些供个人消遣的内容。

  更重要的是,它们缺乏社会认同。整体社会氛围上,大家对 AI 生成的艺术观感不好。许多有才华的艺术家,强烈反对这些工具,甚至在社会中,「AI」这一术语也开始变成某种意义上的贬义词。

  图像和视频模型也是 AI训练数据伦理争论的核心,原因很简单:未经允许,没有艺术家愿意看到他们的作品,被用来训练模型,然后这些模型反过来直接与他们竞争!

  Simon 认为六年的时间足够让这一切尘埃落定——让社会找到真正提升人类表达方式的可行方法

  让他兴奋的是,真正有才华、有远见、有创意的艺术家,将利用这六年内演变出的工具,创作出有意义的艺术作品。而且这些工具不可或缺,否则这些艺术就不可能实现。

  在播客中,Simon 谈到了《瞬息全宇宙》(Everything Everywhere All at Once),这部电影赢得了 2023 年七项奥斯卡奖项。

  电影的视觉特效团队,核心只有五个人。

  试想如果能使用六年后才出现的 GenAI 工具,他们能做出什么样的作品!

  自从播客录制以后,Simon 从 Swyx 那里了解到,Runway ML 已包含在《瞬息全宇宙》的工具集中:

Evan Halleck 曾在这支团队,他利用 Runway 的 AI 工具节省时间,自动化了编辑的繁琐环节。特别是在电影的岩石场景中,他使用 Runway 的转描机技术(rotoscoping)快速、干净地剪辑岩石,同时沙子和灰尘在镜头周围移动。这把原本需要几天的工作缩短到了几分钟。

  Simon 在播客中预测,使用 GenAI 工具的电影,将在六年内获得奥斯卡奖。

  这样看来他已经迟了八年!

  六年后的反乌托邦:大规模社会动荡

  2031 年的悲观预测则是关于「AGI」的,AGI 这个术语一直在不断被重新定义。

  如果假设 AGI 能够执行目前人类承担的几乎全部的岗位,那么很难不看到潜在的负面后果。

  奥特曼可能尝试过全民基本收入。但美国现在连全民医保问题都无法解决,更何况全民基本收入!

  当大多数工作被机器取代时,很难想象未来的经济怎么能为大多数人服务。

  所以,他为 2031 年做的悲观预测是:如果这种形式的 AGI 到来,那么它将带来极其糟糕的经济后果和大规模的社会动荡

  他心目中的 AI 乌托邦是能够增强当前人类能力的 AI 工具。

  这正是迄今为止利用 LLM 所做的事。

  他理想中的状态是这些工具不断改进,最终使人类能够完成更加宏伟的工作。

  如果有一种 AGI 能实现这种乌托邦,他愿意全力以赴。

  作者介绍

  Simon Willison 是一位英国程序员,Lanyrd 社交会议目录的联合创始人,以及 Web 框架 Django 的联合创造者。

  2010 年末,他作为联创推出了社交会议目录 Lanyrd,后被收购。

  2019 年-2020 年,他在斯坦福大学担任约翰·S·奈特研究员(JSK fellow),开始构建服务于数据新闻学的、开源的工具生态系统。

  从 2002 年,他开始坚持在个人博客上发表文章。

  参考资料:

  https://simonwillison.net/2025/Jan/10/ai-predictions/