2030年,AGI概率至少10%!AI范式转变快,谁能预测GenAI下一代?

  新智元报道

  编辑:KingHZ

  Epoch AI 高级研究员预测:2030 年实现人类水平的 AI 的可能性至少 10%。他认为 AI 从监督学习到 GenAI,模型范式转变迅捷,预测 AI 只能从第一性原理出发。参考人类大脑,他估算了发现人类水平的 AI 需要的算力,得到相关结论。

  AGI 已经来了?还是快来了?还是说 AGI 也是一种「技术乌托邦」?

  对于 AI 的能力,到底该如何预测? AGI 带给人类的是「祝福」还是「诅咒」?

  最近,Epoch AI 高级研究员 Ege Erdil 论证了如何预测 AI 的能力:

  1) 基于当前 AI 能力的外推预测:通常在估计 AI 在已具备基础能力的任务上的进展速度时更可靠。

  2) 第一性原理推理:在预测 AI 尚无法完成或只能极其勉强完成的任务时,往往更加准确。

  结合两种方法,他认为到 2030 年实现人类智力水平的 AI 可能性至少 10%,乐观估计为 20%。

  此外,由于 AI 未来带来的经济收益主要来源于它目前尚未掌握的任务,如果仅仅依赖第一种外推法,那么极有可能严重低估 AI未来的发展速度、广度以及影响力。

  预测 AI 也得讲道理

  在尝试预测 AI 系统未来的能力及其将带来的经济和社会影响时,通常有两种不同的方法:

  1)回顾过去以及事物变化的速度,然后尝试将现在的情况外推到未来。 这种方法倾向于分析过去的数据和趋势来推测未来的走向。

  2)基于第一性原理推理,考虑人脑的能力和资源使用情况、不同领域的训练数据的可用性、获取不同任务的奖励信号的成本等,以估计自动化任务的难度。 这种方法更加理论化,它依赖于对基本事实的理解来进行逻辑推理。

  这两种方法代表了预测 AI 能力的两种根本不同的方式。

  第一种方法更常被经济学家所青睐,因为它依赖于历史数据和趋势分析,便于理解和应用。

  而第二种方法则更适合用于深入探讨技术可行性及其限制,提供了关于 AI 发展可能遇到的技术障碍的洞察。

  每种方法都有其独特的优势和局限,在实践中可能会结合使用以获得更全面的视角。

  采用第一种方法的人在预测时,往往假设:在未来 AI 在最容易完成的任务,与 AI 当时能够完成的任务相似。

  一篇 2013 年出版的经济学论文中,Frey 和 Osborne 试图估算不同职业对计算机化的敏感程度,其中的一段话很好地概括了这一观点:

  ……计算机能够执行的任务最终取决于程序员编写一套程序或规则的能力,以便在各种可能的情况下正确引导技术。

  因此,当一个问题可以被明确指定——也就是说,成功的标准是可量化且可以被轻松评估时,计算机相较于人类劳动将表现得更加高效。

  文章链接:https://oms-www.files.svdcdn.com/production/downloads/academic/The_Future_of_Employment.pdf

  当时这一预测或许合理,但在接下来的十年里,随着深度学习的进步,它被证明是个错误。

  AI:从监督学习到 GenAI

  如今,LLM 能够执行许多任务,而人类甚至无法完全理解内部原理。

  而且,尽管清晰的问题定义仍然重要,但重要性体现在不同的方面。

  在深度学习革命之后,AI 经济学中出现了一种新的视角,即将 AI 系统视为「预测机器」(Prediction Machines)。

  这一观点是对当时 AI 系统能力的反映:在 2012 年至 2019 年间,适用于预测任务的监督学习方法主导了该领域。

  因此,一些人再次犯下了类似的错误,简单地假设它会像 2010 年代中期的监督学习一样,认为 AI 的未来只是拥有更强大的预测能力。

  从《预测机器》中,可以看到一些相关的引用,清楚地说明了这一点:

  …我们所见到的进步主要发生在机器学习领域,而机器学习更准确地说是一种统计学的进步,尽管是非常重大的进步;具体来说,是在用于生成预测的统计方法上的进步。

  新的 AI 技术将极大降低什么成本?预测。

  因此,正如经济学所告诉我们的,不仅预测的使用将大幅增加,我们还会看到在一些新领域中,它令人惊讶地适用。

  Frey 和 Osborne 预测计算机化一样,上述新推测也被后来的发展所推翻,尤其是 AI 领域向无监督学习的转变,以及如今所谓的「生成式 AI」(Generative AI)的兴起。

  相比于上述例子,AI 研究者和未来学家,常常使用的是从第一性原理出发的推理方法(first-principles reasoning)。

  其中最著名的例子可能是 Ray Kurzweil。

  在 1999 年,他估算人脑的计算能力约为 10^{16}次运算每秒,并结合摩尔定律(Moore’s Law)预测人类水平的 AI 系统将在 2029 年诞生。

  摩尔定律

  外推预测的风险

  使用简单的模型将过去的数据外推到未来,是经过验证的预测方法,在许多领域都适用。

  然而,在 AI 领域,如果仅依赖这种方法,存在严重的局限性

  最主要的问题在于,这类方法过度依赖 AI 过去和当前的能力,导致低估未来 AI 的突破,特别是在当前完全无法胜任的任务上。

  采用这种方法时,预测者即便有意识地试图考虑 AI 未来可能的进步,仍然倾向于认为未来的 AI 只是现在 AI 的增强版,其能力范围会逐步扩展到与现有任务相邻的领域。

  目前,这种错误的最新表现形式是将 AI 的最新发展局限在「生成式 AI」(Generative AI)的框架内。

  就像过去「预测机器」的概念一样,这种狭隘的视角让人误以为,AI 未来的能力可以通过简单推测「今天的图像生成器和聊天机器人会变得更便宜、更高效」来预测。

  这种方法的局限性不可忽视 。

  为了说明并提醒大家 AI 发展的不可预测性,在下方列出了一张表格,其中展示 2016 年人们认为 AI 重要能力的清单,对比今天的发展,你会发现当时的许多预测都已过时。

  请注意,对 2025 年的用户来说显得重要的能力——问答、阅读理解、图像生成、编程、数学——在表中都没有出现。

  这些都是由于 scaling law 和算法进步而出现的新能力。

  如果只使用朴素外推法来预测 2025 年 AI 系统性能,那么没有人都预料到这些能力。

  我们应该期待,AI 当前能力与十年后能力之间的差异将同样巨大。这应该成为一种共识。

  不宜外推 AI 对经济影响

  在最近的论文中,Acemoglu 犯了错误:过度依赖这种简单外推法。

  Acemoglu 借鉴了其他几位作者的研究,这些作者对不同经济任务受 LLM 自动化影响的程度以及在这些受影响任务上可能合理预期的成本节约进行了估算。

  Acemoglu 估计,由于 AI 的影响,未来十年经济产出将增长 0.7%。结合三个不同的估算,得出了这个数字:

  (1)Eloundou 等人(2023 年)的估计表明,在美国按工资账单计算的大约 20% 的任务暴露于由大语言模型实现的自动化之下。

  (2)Svanberg 等人(2024 年)估计,在当前暴露于计算机视觉系统自动化的任务中,只有 23% 的任务实际进行自动化是具有成本效益的。

  (3)Acemoglu 假设,在这些自动化任务上,相较于由人类执行这些任务,平均可以节省大约 30% 的劳动力成本。

  (4)Acemoglu 进一步估计,这些任务成本的大约 50% 实际上是劳动力成本,因此总成本节约约为 15%(即 30% 的劳动力成本节约乘以劳动力成本占总成本的 50%)。

  最后,关于这种自动化对 GDP 影响的粗略计算方法是:

  首先计算成本减少的任务比例,大约为 0.2*0.23=4.6%。

  然后,考虑到生产力提升的隐含值约为1/0.85=17.6%,这是因为成本节约了 15%,意味着原本的成本效率提高到了 100/(100-15)≈117.6%,即提升了 17.6%。

  最后,将这两个数值相乘(4.6%*17.6%),得出总全要素生产率影响大约为 0.8%。

  这个分析提供了对自动化技术可能带来的经济效益的量化视角,尽管实际情况可能会因多种因素而有所不同。

  论文地址:https://shapingwork.mit.edu/wp-content/uploads/2024/05/Acemoglu_Macroeconomics-of-AI_May-2024.pdf

  这是一个对可能总结为「LLMs,但更好」的假设性技术的经济产出影响的合理估计。

  然而,这并不是我们应该对未来 10 年内的 AI 系统的期望:我们应该期望它们能够执行许多当前 AI 根本无法执行的任务。

  例如,下图展示了测试时计算范式转变对 LLM 数学性能影响。

  基本观点是,目前 AI 能够做到的事情并不能讲好未来的故事。

  如果想要预测未来几年之外的 AI 发展,那么将目光局限于当前 AI 系统的能力,甚至局限于这些能力的当前变化速度,并不是一个好的选择。

  推理模型超越数学性能的历史趋势

  从先验角度来看,在未来十年中,我们应该期待会出现许多这样的不连续性和突然涌现的能力。

  因此,尽管基于当前 AI 的能力进行预测似乎是一种更为稳妥和合理的方法,但实际上这种方法很可能严重不准确。

  相反,允许技术进步突然加速和新能力出现的更具推测性的方法,可能会做出更好的预测。

  有什么替代方法吗?

  无法回避的问题是,预测未来本身就非常困难,尤其是在缺乏明确趋势可供外推的情况下。

  例如,目前缺乏针对远程办公任务和机器人技术的高质量基准测试,即使有这样的基准测试,也会发现当前系统在这些任务上表现非常差,而线性外推可能会将它们的成熟期推迟到几十年甚至几百年之后。

  这显然不是一种合理的方式来预测 AI 何时能在这些任务上表现出色,因为我们一再看到,基准测试的分数并不是时间的线性函数。

  参考人类大脑预测 AI 能力

  对于这些「尚未涌现」的任务——即人类可以完成但当前 AI 完全无法完成的任务,预测应该参考人类大脑及其资源需求所提供的存在性证明。

  对于人类大脑能够执行的认知任务,可以说以下条件至少足以构建能够执行该任务的神经网络:

1、运行时计算能力:1e15 FLOP/s,这是估计大脑执行计算的大致能力。 2、训练计算量:1e24 FLOP,人类在 30 岁之前大约存活了 10 亿秒。 3、训练算法:大小远小于 100MB,并且进化搜索算法变体所需的计算量远小于 1e45 FLOP。大小限制来自基因组的大小,而搜索计算限制则来自进化过程中可能发生的有效计算的热力学极限。 4、训练数据量:与人类在终身学习过程中接触到的数据量相当。

  想要构建能够执行类似人类任务的 AI 系统,这些条件提供了一个理论上的下限。

  在这些目标中,在大多数任务上,目前的新进展是能满足条件1、2 和4。

  要知道,直到大约 2 年前,AI 系统的训练计算能力才突破 1e24 FLOP,达到了条件2。

  而尚未拥有展现出超越人类能力的 AI 系统,这表明在许多领域,算法仍逊色于人类大脑:还没有达到条件3。

  2030 年 AGI 可能性:10%-20%

  搜索满足条件 3 算法的实际算力需求,难以确定,也难以消除。

  因此保守的估计是:在发现能超越人脑的算法上,需要投入的计算量,在目前累计的计算量(可能在 1e26 到 1e30 FLOP 之间)和 1e45 FLOP 之间均匀分布。

  预计到本年代末,累计计算量将增加大约 1000 倍。

  从目前的情况来看,这意味着人类大约有 20% 的机会找到正确的算法。

  即使考虑到模型的不确定性,把这个概率减半,到 2030 年实现人类水平的 AI 的可能性仍有 10%。

  这甚至还没有考虑到以下可能性:

与进化不同,人类能够在算法搜索、模型训练和模型推理之间进行权衡,并将训练计算量分摊到模型的所有部署实例中。

  这较差的算法,可能通过更多的训练和推理计算来弥补。

  事实上,Ege Erdil 预计首批达到人类水平的 AI 系统会这样做。

  考虑到这一点,概率应该会显著高于 10%。(尽管具体有高多少,还不知道。)

  结合 Moravec 悖论,对 AI 在哪些任务上会首先达到人类水平有了一个预期:这些任务正是 AI 相对于人类具有更大数据优势和较小算法劣势的任务。

  例如,尽管 Eloundou 等人 2023 年的论文得出结论认为,需要科学技能的任务,预计会抵抗 LLM 自动化。

  论文链接:https://arxiv.org/abs/2303.10130

  但 Ege Erdil 认为:「这种更广泛的视角实际上表明,这反而是它更容易受到 AI 自动化影响的原因。」

  原因是,相对于感觉运动和感知任务,科学推理并不是那种人类具有高效算法的任务。

  结论

  基本的结论是,AI 目前能做什么并不是重点

  如果想预测 AI 未来几年之后的发展,仅仅以当前 AI 系统的能力,甚至当前这些能力的变化速度作为锚点,并不是一个好主意。

  相反,应该从各种任务的内在难度出发来思考,尽管当前 AI 系统在许多任务上完全无法胜任,但这恰恰反映了使用 AI 自动化这些任务所需的资源需求。

  当这样做时,就会得到对 AI 进展更为乐观的图景,这更符合近期的历史。

  许多人现在提出的关于「生成式 AI」系统能力本质上受限的论点,如果放在 2016 年用来预测当时 AI 系统的局限性,可能会表现得很糟糕。

  如果我们希望我们的预测更准确,就不应该依赖那些过去表现不佳的预测方法。

  参考资料:

  https://epoch.ai/gradient-updates/what-ai-can-currently-do-is-not-the-story