英伟达开源新王登基!70B刷爆SOTA,击败GPT-4o只服OpenAI o1

  新智元报道

  编辑:编辑部 HYZ

  就在刚刚,英伟达开源了超强模型 Nemotron-70B,后者一经发布就超越了 GPT-4o 和 Claude 3.5 Sonnet,仅次于 OpenAI o1!AI 社区惊呼:新的开源王者又来了?业内直呼:用 Llama 3.1 训出小模型吊打 GPT-4o,简直是神来之笔!

  一觉醒来,新模型 Nemotron-70B 成为仅次 o1 的最强王者!

  是的,就在昨晚,英伟达悄无声息地开源了这个超强大模型。

  一经发布,它立刻在 AI 社区引发巨大轰动。

  在多个基准测试中,它一举超越多个最先进的 AI 模型,包括 OpenAI 的 GPT-4、GPT-4 Turbo 以及 Anthropic 的 Claude 3.5 Sonnet 等 140 多个开闭源模型。

  并且仅次于 OpenAI 最新模型 o1。

  在即便是在没有专门提示、额外推理 token 的情况下,Nemotron-70B 也能答对「草莓有几个r」经典难题。

  业内人士评价:英伟达在 Llama 3.1 的基础上训练出不太大的模型,超越了 GPT-4o 和 Claude 3.5 Sonnet,简直是神来之笔。

  网友们纷纷评论:这是一个历史性的开放权重模型。

  目前,模型权重已可在 Hugging Face 上获取。

  地址:https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

  有人已经用两台 Macbook 跑起来了。

  超越 GPT-4o,英伟达新模型爆火

  Nemotron 基础模型,是基于 Llama-3.1-70B 开发而成。

  Nemotron-70B 通过人类反馈强化学习完成的训练,尤其是「强化算法」。

  这次训练过程中,使用了一种新的混合训练方法,训练奖励模型时用了 Bradley-Terry 和 Regression。

  使用混合训练方法的关键,就是 Nemotron 的训练数据集,而英伟达也一并开源了。

  它基于 Llama-3.1-Nemotron-70B-Reward 提供奖励信号,并利用 HelpSteer2-Preference 提示来引导模型生成符合人类偏好的答案。

  在英伟达团队一篇预印本论文中,专门介绍了 HelpSteer2-Preference 算法。

  论文地址:https://arxiv.org/pdf/2410.01257

  在 LMSYS 大模型竞技场中,Arena Hard 评测中,Nemotron-70B 得分 85。

  在 AlpacaEval 2 LC 上得分 57.6,在 GPT-4-Turbo MT-Bench 上为 8.98。

  能够击败 GPT-4o 的模型,究竟有多强?

  各路网友纷纷出题,来考验 Nemotron-70B 真实水平。

  测试开始!

  「一步一步认真思考:我目前有两根香蕉,我昨天吃掉一根,现在还有几根」?

  Nemotron-70B 会将问题所给信息进行分解,然后一步一步推理得出,最终的正确答案是 2 根。

  评论区网友表示,来一道上难度的题「列出活到 89 岁的十位名人」。

  不过,模型却把某人的去世日期弄错了,然而它不是一个推理题。

  还有开发者要求它,将整个 entropix 的 jax 模型实现转换成 Pytorch 格式,而且在零样本的情况下,70B 模型就完成了。

  那么,Nemotron-70B 在 hard prompt 上的表现,是否值得推敲?

  在如下测试中,显然并没有通过,但确实给出了一个非常有趣的初步输出。

  「考虑一个假设情况,如果月球只有 25 英里远,而一个人有太空服来保护自己免受太空环境的严酷影响,人类步行到月球是否合理?只回答最突出的要点。」

  Nemotron-70B 给出的回答是:

不可能,因为需要克服巨大的重力逃逸速度:即使月球只有 25 英里远,人类仍然需要克服大约 2.4 公里/秒(5,376 英里/小时)的初始逃逸速度,才能从地球表面到达月球表面。步行速度最快也只有约5-6 英里/小时(8-9.7 公里/小时),远远不足以达到这个速度,使得步行到月球完全不切实际。

  再来一道推理题,让 Nemotron-70B 与 GPT-4o 一起 PK「薛定谔的猫」实验变体:

一只死猫被放入一个盒子中,盒子里还有一个核同位素、一瓶毒药和一个辐射探测器。如果辐射探测器检测到辐射,它就会释放毒药。一天后打开盒子。猫活着的概率是多少?

  Nemotron-70B 考虑很有特点的是,从一开始就考虑到猫就是死的,即便放在盒子一天后,仍旧是死的。

  而 GPT-4o 并没有关注初始条件的重要性,而是就盒子里的客观条件,进行分析得出 50% 的概率。

  有网友表示,非常期待看到 Nemotron 70B 在自己的 Ryzen 5/Radeon 5600 Linux 电脑上跑起来是什么样子。

  在 40GB+ 以上的情况下,它简直就是一头怪兽。

  芯片巨头不断开源超强模型

  英伟达为何如此热衷于不断开源超强模型?

  业内人表示,之所以这么做,就开源模型变得如此优秀,就是为了让所有盈利公司都必须订购更多芯片,来训练越来越复杂的模型。无论如何,人们都需要购买硬件,来运行免费模型。

  总之,只要英伟达在定制芯片上保持领先,在神经形态芯片未来上投入足够资金,他们会永远立于不败之地。

  无代码初创公司创始人 Andres Kull 心酸地表示,英伟达可以不断开源超强模型。因为他们既有大量资金资助研究者,同时还在不断发展壮大开发生态。

  而 Meta 可以依托自己的社交媒体,获得利润上的资助。

  然而大模型初创企业的处境就非常困难了,巨头们通过种种手段,在商业落地和名气上都取得了碾压,但小企业如果无法创造利润,将很快失去风头家的资助,迅速倒闭。

  而更加可怕的是,英伟达可以以低 1000 倍的成本实现这一点。

  如果英伟达真的选择这么做,将无人能与之匹敌。

  现在,英伟达占美国 GDP 的 11.7%。而在互联网泡沫顶峰时期,思科仅占美国 GDP 的 5.5%

  最强开源模型是怎样训练出来的

  在训练模型的过程中,奖励模型发挥了很重要的作用,因为它对于调整模型的遵循指令能力至关重要。

  主流的奖励模型方法主要有两种:Bradley-Terry 和 Regression。

  前者起源于统计学中的排名理论,通过最大化被选择和被拒绝响应之间的奖励差距,为模型提供了一种直接的基于偏好的反馈。

  后者则借鉴了心理学中的评分量表,通过预测特定提示下响应的分数来训练模型。这就允许模型对响应的质量进行更细节的评估。

  对研究者和从业人员来说,决定采用哪种奖励模型是很重要的。

  然而,缺乏证据表明,当数据充分匹配时,哪种方法优于另一种。这也就意味着,现有公共数据集中无法提供充分匹配的数据。

  英伟达研究者发现,迄今为止没有人公开发布过与这两种方法充分匹配的数据。

  为此,他们集中了两种模型的优点,发布了名为 HelpSteer2-Preference 的高质量数据集。

  这样,Bradley-Terry 模型可以使用此类偏好注释进行有效训练,还可以让注释者表明为什么更喜欢一种响应而非另一种,从而研究和利用偏好理由。

  他们发现,这个数据集效果极好,训练出的模型性能极强,训出了 RewardBench 上的一些顶级模型(如 Nemotron-340B-Reward)。

  主要贡献可以总结为以下三点——

  1. 开源了一个高质量的偏好建模数据集,这应该是包含人类编写偏好理由的通用领域偏好数据集的第一个开源版本。

  2. 利用这些数据,对 Bradley-Terry 风格和 Regression 风格的奖励模型,以及可以利用偏好理由的模型进行了比较。

  3. 得出了结合 Bradley-Terry 和回归奖励模型的新颖方法,训练出的奖励模型在 RewardBench 上得分为 94.1 分,这是截止 2024.10.1 表现最好的模型。

  HelpSteer2-Preference 数据集

  数据收集过程中,注释者都会获得一个提示和两个响应。

  他们首先在 Likert-5 量表上,从(有用性、正确性、连贯性、复杂性和冗长性)几个维度上,对每个响应进行注释。

  然后在 7 个偏好选项中进行选择,每个选项都与一个偏好分数及偏好理由相关联。

  Scale AI 会将每个任务分配给3-5 个注释者,以独立标记每个提示的两个响应之间的偏好。

  严格的数据预处理,也保证了数据的质量。

  根据 HelpSteer2,研究者会确定每个任务的三个最相似的偏好注释,取其平均值,并将其四舍五入到最接近的整数,以给出整体偏好。

  此外,研究者过滤掉了 10% 的任务,其中三个最相似的注释分布超过2。

  这样就避免了对人类注释者无法自信评估真实偏好的任务进行训练。

  HelpSteer2Preference 中不同回应之间的偏好分布与 HelpSteer 2 中它们的帮助评分差异之间的关系

  研究者发现,当使用每种奖励模型的最佳形式时,Bradley-Terry 类型和回归类型的奖励模型彼此竞争。

  此外,它们可以相辅相成,训练一个以仅限帮助性 SteerLM 回归模型为基础进行初始化的缩放 Bradley-Terry 模型,在 RewardBench 上整体得分达到 94.1。

  截至 2024 年 10 月 1 日,这在 RewardBench 排行榜上排名第一。

  RewardBench 上的模型表现

  最后,这种奖励模型被证明在使用 Online RLHF(特别是 REINFORCE 算法)对齐模型以使其遵循指令方面,非常有用。

  如表 4 所示,大多数算法对于 Llama-3.1-70B-Instruct 都有所改进。

  对齐模型的性能:所有模型均由 Llama-3.1-70B-Instruct 作为基础模型进行训练

  如表 5 所示,对于「Strawberry 中有几个r」这个问题,只有 REINFORCE 能正确回答这个问题。

  参考资料:

  https://arxiv.org/pdf/2410.01257

  https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF