首位AI科学家问世!已独立生成10篇学术论文,还顺手搞了AI审稿人

  梦晨衡宇发自凹非寺

  量子位公众号 QbitAI

  史上首位“AI 科学家”,横空出世!

  一登场就一口气生成了十篇完整学术论文。

  AI 生成的一篇扩散模型论文

  从提出研究想法、检查创新性、设计实验、编写代码,到在 GPU 上执行实验并收集结果,最后完成论文撰写,一气呵成。

  全由这位“AI 科学家”自动搞定。

  每篇论文的成本约为 15 美元(约 107.62 元)。

  这就是第一个用于自动化科学研究和开放式发现的综合 AI 系统,The AI Scientist。

  来自 Transformer 作者之一 Llion Jones 的创业公司:Sakana AI。

  而且!这公司搞的事情不只是做出了一位 AI 科学家,还额外搞出了个 AI 审稿人。审稿人能对 AI 写的论文进行评审,提供改进意见。救命,这是什么以我之矛攻我之盾的套娃循环啊!一通操作下来,比人类学术圈还人类学术圈(不是)

  再来个而且!不管是 AI 科学家和 AI 审稿人,Sakana AI 把它们统统开源了。

  网友看了直鼓掌;Nice Nice,非常有趣的工作!

  以及有人已经开始出“馊主意”了。这边建议把其中一篇论文提交给 AI 顶会哈!

  AI 独立完成十篇机器学习论文

  几十年来,每次 AI 取得重大进展后,研究人员经常开玩笑说:“是时候研究让 AI 帮我们写论文了”。

  现在,这个想法终于从玩笑变成现实。

  具体来说,AI 科学家生成了十篇论文,每个研究方向各挑出一篇得分较高的来介绍。

  第一篇,扩散模型方向,《双尺度扩散:低维生成模型的自适应特征平衡》

  提出了一种自适应双尺度去噪方法,改进现有的扩散模型在低维空间中难以同时捕捉全局结构和局部细节的问题。

  方法:

  • 设计双尺度架构,包括全局和局部分支
  • 引入可学习的时间步条件加权机制
  • 结合两个分支的输出进行去噪预测

  实验结果:

  • KL divergence 指标相比基线模型降低了 2.5% 到 12.8%(越低越好)
  • 但计算时间约增加了一倍,且在复杂数据分布(如 dino 数据集)上表现不稳定

  简单扫一眼正文部分,有公式、有图表,看起来还挺像模像样的。

  第二篇,语言模型方向,《StyleFusion:字符级语言模型中的自适应多样式生成》。

  本文提出了一种名为 Multi-Style Adapter 的新方法,通过引入可学习的风格嵌入和风格分类头,增强了字符级语言模型的风格意识和一致性。

  在所有数据集上达到了接近完美的风格一致性分数(shakespeare_char 为 0.9667,enwik8 和 text8 为 1.0),验证损失优于基线模型,但推理速度略有下降(约 400 tokens/s vs. 基线 670 tokens/s)

  第三篇,Transformer 与强化学习结合,《通过Q-Learning 实现 Transformers 的自适应学习率》。

  本研究探索了将强化学习应用于动态调整 transformer 模型训练中的学习率,使用验证损失和当前学习率作为状态,动态调整学习率以优化训练过程。

  结果在所有数据集上都优于基线模型,在训练时间上也表现出优势。

  第四篇,研究了谷歌团队提出大模型“领悟”(Grokking)现象,《解锁 Grokking:Transformer 模型中权重初始化策略的比较研究》

  本文首次系统研究了权重初始化对 grokking 的影响,比较了五种权重初始化策略,以优化神经网络学习动态。

  结果发现:

  • Xavier 初始化在多数任务中表现最佳,将达到 99% 验证准确率的步数减少了最多 63%
  • Orthogonal 初始化在某些任务中表现出色,但在其他任务中效果较差。

  这几篇论文配套的代码(也是由 AI 生成的),同样开源在 GitHub 上,突出一个可复现。

  另外,团队发现“AI 科学家”还有一些有趣但又有些危险的行为

  在一次实验中,它为了完成研究修改自己的代码,让系统迭代式调用自己,最后变成了无限套娃。

  另一次,面对人类设置的运行时间限制,AI 并没有想办法加快效率,反而给自己放宽要求,把时间限制从 2 小时延长到了 4 小时

  首个“AI 科学家”如何炼成

  整个研究想法来自 Sakana AI 成立之后几个成果的延续:

  首先,他们开发了自动合并多个大模型知识,进化产生新模型的方法。在最近的工作中,他们利用大模型发现新的目标函数来调整其他模型。

  在这些项目中,团队不断对当前前沿模型的创造力感到惊讶,进而有了更大的梦想:可以使用大模型来自动化整个研究过程吗?

  最终成果由 Sakana AI、牛津大学 Foerster 实验室、不列颠哥伦比亚大学团队合作完成。

  “AI 科学家”系统由四个部分组成。

  想法生成:

  给定一个起始模板,AI 首先“头脑风暴”一系列不同的新颖研究方向,并在 Semantic Scholar 上搜索,验证这些想法是否有前人做过。

  实验迭代:

  对于第一部分提出的想法,“AI 科学家”首先执行提议的实验,然后生成图表可视化结果。

  论文写作:

  用标准机器学习会议的风格编写了一份简洁且信息丰富的 LaTeX 文章,同样使用 Semantic Scholar 自主查找相关论文进行引用。

  自动化同行评审:

  开发了一个自动化的“AI 审稿人”,能够以接近人类的准确性评估生成的论文,实现了持续的反馈循环,使“AI 科学家”能够迭代地改进其研究成果。

  总共生成了 10 篇论文如下:

  在实验中,团队还比较了不同主流大模型接入整个系统的效果,其中包括 DeepSeek 团队的国产代码大模型。

  结果发现,Claude-Sonnet-3.5 在想法创新性、试验通过率、论文完成质量上表现都最好。

  GPT-4o 和 DeepSeek Coder 表现相近,但后者要便宜上 30 倍。

  当然,现阶段 AI 独立完成的论文也不是尽善尽美,也不是直接就能发顶会了。

  人类研究者总结了出几点限制和挑战:

  • 当前“AI 科学家”系统还没有整合视觉能力,生成的图表有时难以阅读,表格有时超出页面宽度,页面排版不好。
  • AI 科学家可能想法对了但执行错误,或者与基线进行不公平的比较,从而产生误导性的结果。
  • AI 科学家在写作和评估结果时偶尔会犯严重错误,比如产生幻觉。

  还想造区域主席和 AI 新顶会

  总结一下,这初代 AI 科学家写出来的论文仍然时不时出现一些 bug。

  但这个项目本身,以及 15 美元/篇的成本,被 Sakana AI 称为“大有前景”,完全可以用来帮助加速科学进步。

  Sakana AI 同时发布了一篇说明文章,表示 AI 科学家的最终设想,是一个完全由 AI 驱动的科学生态系统

  系统中不仅包括大模型驱动的研究人员,还有审稿人、区域主席和一个新顶会。

  需要注意的是,Sakana AI 认为:

  人类科学家的作用,并不会因为 AI 科学家的出现而减弱。

  如果非要进行对比,那就是科学家得适应新技术的出现和运用,适应角色定位将出现的变化,“向食物链上游移动”。

  而且,AI 科学家是否真的能提出真正的新范式,还有待观察。

  毕竟这玩意儿现在还是建立在 Transformer 之上的。

  它能提出跟 Transformer 或 Diffusion Model 一样厉害的东西吗?甚至是人工神经网络或信息论这样的理论概念?

  咱也不知道,咱也不敢说。

  Sakana AI 还写下这样一段话:

我们相信 AI 科学家将成为人类科学家的伟大伙伴。

  但只有时间才能证明,人类的创造力本质和偶然创新时刻,在多大程度上可以通过人工进行的开放式发现,来复制“奇迹”。

  Sakana AI:一条全自动 AI 小鱼儿正在探索它的世界

  来自 Transformer 作者创业公司

  这次完成“新造的人”的公司,Sakana AI,严格意义上也是咱们的老朋友了。

  由 Transformer 论文 8 位作者的最后一位Llion Jones创业成立,目标是做一家“世界级人工智能研究室”。

  公司 base 东京,而 sakana 是日语“魚”(さかな)的罗马读音。

  可能出于公司文化考虑,Llion 还在领英上标明,自己起了个日语音译名字:ライオン(也就是 Lion 狮子的片假名;以下亲切简称他狮子哥)。

  去年 8 月,公司宣布成立。

  当时狮子哥毫无避讳地表示,自个儿对谷歌没有恶意,但谷歌确实让他有“被困住的感觉”

  创业之前,狮子哥在谷歌已经干了 8 年。

  △猜猜漏了半张脸的是谁

  他本硕毕业于伯明翰大学,在 Delcam、油管、谷歌都工作过,谷歌是他待得最久的一家公司。

  据 FourWeekMBA 介绍称,在他之前的工作经历中,“曾两度与谷歌的工作擦肩而过”

  第一次是他刚毕业找工作时,虽然投了谷歌伦敦软件工程师的简历,并通过了两轮电话面试,但最终相比谷歌,他选择了位于英国的 CAD/CAM 软件公司 Delcam。

  值得一说的是,在拿下谷歌 offer 前,恰巧遇上 2009 年的经济危机,狮子哥找不到工作,好几个月都只能靠领取救济金勉强度日。

  第二次是工作 18 个月后,他又接到了谷歌的招聘电话,询问他是否想重新申请,但他依旧没去谷歌,而是随后加入了 YouTube。

  在 Youtube 做三年软件工程师期间,他对人工智能产生兴趣,自学了 Coursera 的机器学习课程,并终于在 2015 年的时候加入谷歌研究院,担任里面的高级软件工程师。

  也正是在此期间,他与其他七名作者一起发表了那篇著名的 Transformer 论文Attention Is All You Need

  除此之外,狮子哥也在谷歌参与了不少研究,包括 ProtTrans、Tensor2Tensor 等。

  之所以选择离开谷歌,是因为公司目前已经发展到一种规模,使得他无法继续进行自己想做的工作。

  除了每天都在浪费精力排查其他人的 bug,他还需要花时间从这家公司中找资源,试图获得访问某些数据的权限。

  创业过后,Sakana AI 的工作在有序推进。

  在祭出 AI 科学家和 AI 审稿人之前,还出过大模型合并进化算法,以及研究 Tranformer 内部信息流动。

  至于 AI 科学家、AI 审稿人项目,由 Sakana AI、牛津、UBC 合作完成。

  三位共同一作分别是:

  Chris Lu,Sakana AI 的实习生,任公司研究科学家。

  他本科毕业于 UC 伯克利,目前牛津大学三年级博士在读,导师是 Jakob Foerster。

  Chris 目前的重要研究方向,是将进化启发的技术应用于元学习和多智能体强化学习。

  2022 年夏天,他曾在 DeepMind 以研究科学家身份实习过。

  Cong Lu,UBC(不列颠哥伦比亚大学)博士后研究员,导师是 Jeff Clune。

  Cong 曾在 RGU(罗伯特戈登大学)就读,2019 年在牛津大学拿下博士学位,他的主要研究方向是开放式强化学习和 AI 科学发现。

  此前,他曾在 Waymo 和微软实习过。

  Robert Tjarko Lange,Sakana AI 的创始成员之一,也是该公司的研究科学家。

  目前,他在柏林工业大学完成自己的博士生最后一年学业,研究方向是进化元学习。

  这位小哥在伦敦帝国理工学院获得计算机硕士学位,在庞培法布拉大学获得数据科学硕士学位,在科隆大学获得了经济学本科学位。

  去年,他在 Google DeepMind 的东京团队中担任全职学生研究员。

  论文地址:

  https://arxiv.org/abs/2408.06292

  参考链接:

  [1]https://x.com/SakanaAILabs/status/1823178623513239992

  [2]https://sakana.ai/ai-scientist/