国思软件 - AI智能体全新摩尔定律震撼诞生：AI研发能力每7个月翻一番！五年替代人类开发团队？

　　新智元报道

　　编辑：Aeneas

　　这家名为 METR 的机构，刚刚发现了 AI 智能体的全新摩尔定律：过去 6 年中，AI 完成任务的长度，每 7 个月就会翻一番！如此下去，五年内我们就会拥有 AI 研究员，独立自主完成人类数天甚至数周才能完成的软件开发任务。

　　就在刚刚，AI 智能体的摩尔定律被发现了！

　　METR 研究所表示，他们发现了全新的 AI 智能体 Scaling Law——

AI 可执行任务的长度，每七个月翻一番。

　　过去 6 年中，前沿通用 AI 智能体完成任务的能力，每 7 个月就翻倍一次

　　同时发表的，还有一篇 45 页论文。

　　论文地址：https://arxiv.org/abs/2503.14499

　　这家加州的非营利研究所 METR 的研究者提出，以 AI 智能体能完成的任务长度来衡量它们的性能。

　　他们设计了近 170 个真实任务，涵盖了编程、网络安全、通用推理和机器学习等领域，并且测量了人类专家所需的时间，建立了一条「人类基准线」。

　　据此，他们发现，这一指标在过去六年中一直呈指数级增长，所需翻倍时间约为 7 个月。

　　如果按这一趋势推断，在五年内，我们就将见证：AI 智能体能够独立完成当前需要人类耗时数天甚至数周才能完成的大部分软件开发任务。

　　而如果这六年的 Scaling Law 能持续到本十年末，前沿 AI 系统完全就能自主执行为期一个月的项目！

　　这个结论听起来，实在是很炸裂。果然 Nature 火速采访研究者团队，出了一篇报道。

　　AI 独立研究员，真的要来了？

　　METR 研究者介绍说，之所以做这项研究，是因为他们感觉到：如今的基准测试很快就饱和了，但却不太能很好地转化为 AI 对现实世界的影响。

　　所有人都感觉到，「某种东西」正在迅速上升，但这种东西，究竟是什么呢？

　　对此，专家们也是众说纷纭，有人说「AGI 几年内就会出现」，也有人说「Scaling Law 已经撞墙了」！

　　截止时间：2024 年 12 月

　　METR 希望，从目前 AI 模型的表现中抓住这「某种东西」，由此，这条全新的 Scaling Law 就诞生了。

　　这项研究，立刻在 AI 社区引发了巨大的声浪。

　　ARIA Research 的项目总监 Davidad 在这条 Scaling Law 曲线上发现了亮点：合成数据的自我改进（比如带有可验证奖励的 CoT 上的 RL），已经引发了一种全新的增长模式！

　　而研究中的另一项图表，更是证明了他的第二项观点：pass@8 已经接近 8 小时的范围。

　　ALTER 的创始人表示，Claude 能玩宝可梦已经证明了这项研究的观点，而如果继续翻倍，游戏会需要 26 小时，所以时间点大概在 3 年后，甚至还会更快！

　　全新 Scaling Law：6 年内，AI 任务长度 7 个月翻一番

　　METR 认为，预测未来 AI 系统的能力，对理解和准备应对强大 AI 带来的影响至关重要。

　　然而，究竟应该怎样准确预测 AI 能力的发展趋势？这项任务目前仍然非常艰巨。

　　而且，即使我们想理解当今模型的能力，也往往很难把握。

　　虽然目前最前沿的 AI 系统中文本预测和知识处理任务上已经远超人类，能以远低于人力的成本中大多数考试中远超人类专家，但它们仍然无法独立完成实质性项目，或者直接替代人类劳动。

　　甚至，它们也无法处理基于计算机的低技能工作，比如远程行政助理。

　　那么，该如何衡量它们对于现实世界的实际影响呢？

　　METR 研究者表示，一个有效方法，就是衡量 AI 模型能完成的任务长度。

　　这是因为，AI 智能体的主要挑战，并不在于缺乏解决单个步骤所需的技能或知识，而在于难以连续执行较长的动作序列。

　　于是，他们让 AI 智能体完成一组多样化的多步骤软件和推理任务，同时还记录了具有专业知识的人类所需的时间，然后有了这样一个有趣的发现——

　　人类专家完成任务的时间，能有效预测模型在特定任务上的成功率。

　　其中一个软件工程任务：回答「哪个文件最有可能包含密码」

　　不同时长的任务，最短的只有 3 秒，最长的有 8 小时

　　比如，当前模型在人类耗时不足 4 分钟的任务上，几乎能达到 100% 的成功率，但在需要人类耗时超过 4 小时的任务上，成功率则低于 10%。

　　由此，研究者想到：可以用「模型以x%概率成功完成的任务所对应的人类完成时长」，来描述模型的能力水平。

　　对于每个模型，他们都拟合了一条逻辑斯蒂曲线（logistic curve），基于人类任务时长预测模型的成功概率。

　　在设定特定的成功概率后，就可以找到预测成功曲线与该概率水平的交点，从而获得对应的任务时长，这样就能将每个模型的性能用时间跨度来表示。

　　首先，创建一套 170 个多样化任务。其次，让人类和 AI 智能体尝试这些任务，记录成功的人类所需时间，以及 AI 智能体的成功率。第三，拟合一个逻辑模型，以确定每个 AI 智能体在 50% 成功率下的时间范围，绘制在与模型发布日期对应的图表上

　　以下就是几个模型的拟合成功曲线，以及这些模型在预测成功率为 50% 时所对应的任务时长：

　　计算时间跨度的过程示意图

　　以上图最右侧用最深绿色表示的模型 Claude 3.7 Sonnet 为例，其时间跨度约为一小时，这是该模型的拟合逻辑斯蒂曲线与 50% 成功概率阈值的交点所在。

　　在研究者看来，这些结果可以解释这个矛盾：为什么模型在众多基准测试中已经表现出超越人类的能力，却始终无法自主可靠地完成人类工作。

　　原因就在于，最先进的 AI 模型（如 Claude 3.7 Sonnet）虽然能完成某些人类专家数小时才能完成的任务，能如果要论可靠地生成，它们就只能完成几分钟以内的任务了。

　　但是，分析历史数据后，他们有了一个令人惊喜的发现——

　　最先进 AI 模型能够完成的任务时长（以 50% 成功概率为标准），在过去 6 年间已经实现了显著增长！

　　当把这些数据在对数尺度上绘制时，就可以发现全新的 Scaling Law：模型能够完成的任务时长呈现出明显的指数增长规律，倍增周期约为 7 个月。

　　METR 研究者表示，有充分把握可以确定这项全新 Scaling Law 的正确性，即每年实现1-4 次倍增。

　　而如果在过去六年内观察到的这一 Scaling Law 在未来2-4 年内依然持续存在，那未来的通用自主智能体，就完全有能力执行需要一周时间才能完成的任务！

　　这条曲线的陡峭程度也意味着，即使存在较大误差，研究者对不同能力何时到来的时间点预测，仍然相对可靠。

　　比如，即使绝对测量值出现了 10 倍误差，那实际预测时间的误差也仅为 2 年而已。

　　50% 成功率，究竟代表什么

　　所以，团队为什么会选择 50% 的成功率标准呢？

　　原因在于，这项指标对于数据分布的细微变化最不敏感。

　　在 Nature 报道中，共同作者 Lawrence Chan 这样解释道：「如果选择过低或过高的阈值，仅仅添加或删除一个成功或失败的任务样例，就会导致估计结果发生显著变化。」

　　如果将可靠性阈值从 50% 提高到 80%，的确会使平均时间跨度缩短五倍，但即使这样，整体的倍增周期和发展趋势仍然和之前保持类似。

　　随着时间的推移，模型变得越来越有鲁棒性。早期模型通常会陷入循环行为或引入更多错误。然而，从 GPT-4o 开始，模型在错误恢复和调整策略方面的能力显著提升。比如在调试少量 Python 代码任务中，Claude 3.5 Sonnet 最初将代码添加到了错误的位置，然后尝试多次使用 CLI 工具 sed 将代码添加到正确的文件中。然而，在这个过程中，它遇到了 IndentationError（缩进错误）和方法重复定义的问题。最终，它成功地转向从头编写整个文件，从而解决了问题

　　这项研究的最大意义在哪里？

　　共同作者 Ben West 表示，他们采用的这个时间跨度方法解决了现有 AI 基准测试的若干局限性，因为传统基准测试与实际工作的关联较弱，且随着模型改进容易迅速达到「饱和」。

　　相比之下，这种新方法提供了一个连续的、直观的衡量标准，能更好地反映有意义的长期进展。

　　而在论文中，他们还证实了类似的发展曲线在以下方面同样成立：

代表不同分布的多个任务子集（包括短期软件任务、多样化的 HCAST、RE-Bench，以及按任务时长或「复杂程度」定性评估筛选的子集）。
基于真实任务的独立数据集（SWE-Bench Verified），其中的人类完成时间数据是基于估算而非基准测试获得的。它显示出更快的倍增速度，周期还不到 3 个月。