国思软件 - 最强数学大模型易主！阿里千问新模型成绩超GPT-4o

　　克雷西发自凹非寺

　　量子位公众号 QbitAI

　　最强数学大模型，现在易主！

　　阿里千问大模型团队发布的 Qwen2-Math，不仅超越了 Llama 3.1-405B，也战胜了 GPT-4o、Claude 3.5 等一系列闭源模型。

　　而且还会解决竞赛级试题，在 GPT-4 只能做对一道的 AIME 24 中，Qwen2-Math 答对的题目数量达到了两位数。

　　Qwen2-Math 一共有三个参数量的版本——72B，7B 和 1.5B。

　　最强的 72B 版本，在 MATH 数据集上比 GPT-4o 多得了 7 分，按比例算高出了 9.6%。

　　7B 版本也用不到十分之一的参数量，超过了 72B 的开源数学模型NuminaMath。

　　而且这个 NuminaMath 来头不小，它的 7B 版本在全球首届 AIMO 中获奖，奖项由数学大牛陶哲轩颁发。

　　阿里高级算法专家林俊旸激动地宣布，千问团队把 Qwen2 模型变成了一个数学高手。

　　fast.ai 创始人 Jeremy Howard 看了直呼 amazing。

　　网友更是惊叹，原来这才是真正的“草莓”，这是开源的胜利，也是所有人的胜利。

　　超越 GPT4o，会做竞赛级试题

　　如前文所说，Qwen2-Math 共有 72B、7B 和 1.5B 三个参数规模，分别由对应规模的 Qwen2 基础模型改造而成。

　　在基础模型之上，团队使用精心设计的数学专用语料库进行了预训练，训练数据包含大规模高质量的数学网络文本、书籍、代码、考试题目，以及由 Qwen2 模型合成的数学预训练数据。

　　结果，在 GSM8K、MATH 等经典数学测试集上，Qwen2-Math-72B 的数学能力都超过了 405B 的 Llama-3.1。

　　这些数据集，涉及到问题涵盖了代数、几何、计数与概率、数论等多种类型。

　　除了这些英文的数据集，Qwen2-Math 还专门挑战了中文数据集 CMATH，还有高考试题。

　　在中文数据集上，1.5B 版本的成绩就超过了 70B 的 Llama 3.1，而且三个版本相当于同规模的 Qwen2 基础模型，成绩都有明显提升。

　　在 Qwen2-Math 的基础之上，千问团队还微调出了 Instruct 版本。

　　具体来说，团队基于 Qwen2-Math-72B 训练一个数学专用的奖励模型，将奖励信号与正误判断信号结合作为学习标签，再通过拒绝采样构建监督微调（SFT）数据，最后在 SFT 模型基础上使用 GRPO 方法优化。

　　在 MATH 数据集上的零样本测试显示，1. 5B 的 Instruct 就能取得 70% 的准确率，比 70B 的 Llama 3.1 还高。

　　此外，研究团队还引入了难度更大的 OlympiadBench、CollegeMath 和英译版高考试题等更困难的测试集。

　　作者让 Qwen2-Math 采用了贪心（greedy）、RM@8 和 Maj@8 三种策略，结果无论是哪一种，Qwen2-Math 的成绩全都超过了同规模的 Llama 3.1。

　　中文数据集方面，Qwen2-Math 还挑战了今年最新的中高考试题，与 Llama 3.1 相比优势十分明显。

　　值得一提的是，为了减少测试成绩当中的“水分”，千问团队专门从训练数据集中去除了所有和测试集重叠的部分。

　　而且除了精确匹配，还运用了更严格的 13-gram 去重策略，只要最长公共序列的比率应大于 0.6 就会被去除。

　　后训练的过程也是如此，涉及的数据集，甚至测试成绩中没展示的 Aqua、SAT Math，全都被从数据当中剔除。

　　另外，Qwen2-Math-Instruct 已经具备了解决一些简单的竞赛级试题的能力。

　　比如在 AIME 24 的 30 道题当中，Qwen2-Math-72B-Instruct 用 rm@256 策略能够做对 11 道。

　　像 GPT-4 Turbo、Claude 3 Opus 和 Gemini 1.5 PRo 这些先进模型都只能做对一两道。

　　而且最小的 1.5B 版本也能在 rm@256 的条件下做对五道题，已经超过了这三家模型。

　　另外，Gemini 1.5 Pro 有一个专门针对数学任务的版本，但也只能做对七八道题目，Qwen2-Math-72B-Instruct 是第一个做对的题目数量达到两位数的模型。

　　在官方文档中，千问团队也展示了一些示例，比如奥赛级数学测试集Math Odyssey当中有这样一道题目。

　　这道题目涉及到组合数学和图论，具体又包括了完全图、二部图等概念。

　　此外还需要理解如何将这些概念应用于特定性质结构的构建，需要较强的抽象思维能力和对图论结构的深刻理解。

　　Qwen2-Math 的解决方案是这样的，从中可以看出确实是运用到了图论方法。

　　最终，Qwen2-Math 正确地回答了这道题目。

　　△中文为机翻，仅供参考

　　不过，目前发布的 Qwen2-Math 主要针对英文场景，中英双语版本将会在之后推出。

　　另外，根据 Qwen2-Math 的许可协议，该模型对大部分用户来说可以免费商用，但对于 72B 版本，如果每月活跃用户数超过 1 亿，就需要向千问团队申请许可了。

　　项目主页：

　　https://qwenlm.github.io/zh/blog/qwen2-math/

　　参考链接：

　　https://x.com/JustinLin610/status/1821554112192012291

最强数学大模型易主！阿里千问新模型成绩超GPT-4o

我们的产品

相关链接

关于我们

联系我们