国思软件 - 力压70B Llama 3，Gemma 2成最强开源模型！大佬质疑用榜单prompt微调引全网热议

　　新智元报道

　　编辑：乔杨好困

　　导读：时隔 4 个月上新的 Gemma 2 模型在 LMSYS Chatbot Arena 的排行上，以 27B 的参数击败了许多更大规模的模型，甚至超过了 70B 的 Llama-3-Instruct，成为开源模型的性能第一！

　　谷歌出手，果然非同凡响。

　　Gemma 2 上周刚刚发布，就在 LMSYS 竞技场上取得了亮眼的成绩。

　　在整体评分上 Gemma 2 拿到了开源模型最高分，而且用 27B 的参数「以小搏大」，超过了 Llama 3-70B-Instruct、Claude 3 Sonnet 等更大量级的知名模型。

　　开源模型的头把交椅真的要易主 Gemma 了？

　　对于这个成绩，谷歌研究院首席科学家 Jeff Dean 也发文庆祝。

很高兴看到新版 Gemma-2-27B 模型成为 LMSYS 上最好的开源模型（击败了一些相当大的模型）。我们认为，27B 对于很多场景来说确实是一个非常好的规模，而 Gemma-2-27B 也是一个非常好的模型！

　　不仅是总体评分，在 LMSYS 昨天刚发布的「多轮对话」排行榜上，Gemma 2 的表现依旧强劲。

　　LMSYS 表示，LLM 的多轮对话在当今许多应用场景中非常重要。

　　在竞技场的投票中，多轮对话的占比为 14%，占到了不可忽视的比例。

　　因此他们推出了新的排行类别「多轮对话」，其中包括两轮或多轮的测试，以衡量模型在更长时间内交互的能力。

　　在这个全新的排行榜中，Claude 家族的排名显著提升。

　　总分屈居亚军的 Claude 3.5 Sonnet，成功地与 GPT-4o 并列第一；Claude 3 Opus 也从原来的第 8 名跃居第三。

　　我们本次的主角 Gemma 2 也实现了 2 个名次的进步，进入前十行列，而且压了 Llama 3-70B-Instruct 一头。

　　在 Gemma 2 放出 9B 和 27B 两个版本的同时，DeepMind 研究员 Clement 在推特上透露，接下来还会有 2B 版本和大家见面！

　　曾经只靠开源「一招鲜」的 Meta 终于迎来了强劲对手。Gemma 2 和 Llama 3 的竞争想必会在未来一段时间内持续下去。

　　Gemma 为什么这么强？

　　为什么 27B 的 Gemma 2 能打败 70B 的 Llama 3？谷歌究竟用了什么技术实现如此高的参数效率？

　　或许我们可以从官方发布的技术报告中找到蛛丝马迹。

　　报告地址：https://developers.googleblog.com/en/fine-tuning-gemma-2-with-keras-hugging-face-update/

　　训练数据方面，可想而知，并没有具体的数据来源和组成，只有数据量。

　　由于 Gemma 既没有多模态又不针对多语言任务，因此训练语料只包含各种类型的文本和代码，且主要语言为英语。

　　27B 模型的训练数据有 13 万亿 token，9B 模型和 2.6B 模型则分别为 8 万亿、2 万亿 token。

　　架构上，Gemma 2 从 Gemini 团队和 Gemma 1 沿用了很多方面，包括旋转位置编码（RoPE）、SentencePiece 分词器、Logit 软上限、GeGLU 激活函数等等。

　　相比 Gemma 1，Gemma 2 采用了更深的网络，且在某些部分做了更新——

　　局部滑动窗口和全局注意力

　　Gemma 2 交替使用局部滑动窗口和全局注意力，滑动窗口大小设置为 4096 token，而全局注意力层的设置为 8192 token。

　　这种方法在正确捕捉文本细节的同时，又能保持对上下文和全局的正确理解。

　　知识蒸馏

　　能够训练出有竞争力性能的 9B 和 27B 模型，成功的知识蒸馏过程估计是最为重要的环节。

　　传统训练大语言模型的方法主要是根据之前的 token，预测下一个 token，需要大量的数据进行训练。

　　但是，人类的学习过程并不依赖走量的知识输入。比如，一位学生由于阅读原著的需要学习一门外语，他并不需要看遍所有的书籍，只需要以一本书为纲，通过理解后融会贯通。

　　而知识蒸馏法与人的学习过程更加类似。一个小模型向另一个已经进行过预训练的大模型学习，通过这种方式助产小模型对于 token 的预测。

　　站在老师模型的肩膀上，学生模型能用较少的训练数据、更少的参数量提升性能。

　　用 LMSYS 数据微调，引 AI2 研究员质疑

　　开源模型界终于在 Llama 之后迎来了 Gemma 2 这个最新的扛把子选手，就在大家忙着兴奋的同时，Allen AI 的研究员 Nathan Lambert 冷静地在技术报告中发现了华点：

　　微调数据的来源包括 LMSYS 的聊天数据集！

　　似乎是预想到了可能的质疑，论文中特意强调只使用了 prompt，把答案剔出去了。

　　Lambert 依旧不认可这种行为。他发了一篇推特，疑惑的语气中带着一丝嘲讽：为了在竞技场上刷分数，你们谷歌团队挺有想象力的。

　　这位 Nathan Lambert 其实算是 LLM 领域比较资深的专业人士，他博士毕业于 UC 伯克利大学，在 DeepMind 和 FAIR 都有实习经历。

　　针对 Lambert 的质疑，LMSYS 随后回复了一篇意义不明的超长推特，似乎透露出了为谷歌辩护的隐晦立场。

　　推特全文如下：

从一开始，Chatbot Arena 的使命就是通过人类偏好来解决 LLM 的评估问题。通过开放我们的数据集和论文，我们希望社区能研究真实世界的 prompt，并利用这些数据改进模型（就像 ImageNet 的训练集一样）。我们相信，通过实时和新鲜的用户投票，Arena 比静态基准测试如 MMLU 更不容易过拟合。现在，有些人可能对以下两个方面存在质疑——（1）prompt 重复的程度和（ 2）数据分布。这正是我们开放数据和论文研究的原因。我们的 Llama-3 博客文章显示，经过去重之后，大约 10% 的重复对结果的影响很小。此外，论文还包括对 prompt 分布的主题建模，展现了跨语言的多样化使用案例。展望未来，我们计划深入了解数据的新鲜度和分布。也欢迎大家用新任务来挑战模型，研究我们的 100 万 prompt 和偏好数据，或者加入我们的 Kaggle 挑战。

　　这有些让人摸不着头脑，既说「用数据改进模型是受欢迎的」，又说「我们开放数据和论文是为了回应质疑」。

　　发帖的 Lambert 也同样被搞糊涂了，他进一步阐明了自己的立场。

　　「感觉我们讨论的不是同一件事，我的观点依旧成立。很可能有更多的人也在这样做，但我们并不知道。」