国思软件 - 陶哲轩在IMO上给AI团队颁奖！他们要做AI数学的ImageNet

　　梦晨发自凹非寺

　　量子位公众号 QbitAI

　　陶哲轩在国际数学奥赛 IMO 上亲自给一支 AI 团队颁奖！

　　怎么回事？

　　一同举办的 AI 数学奥林匹克竞赛，让大模型做 IMO 级别的竞赛题。

　　获奖团队Numina，在不公开的 50 道测试题中成功解决了 29 道，与第2-5 名方案明显拉开差距。

　　NuminaMath-7B模型，也一举成为数学推理方面最好的 7B 模型之一。

　　更重要的是，获奖后团队宣布，从模型到数据到代码甚至详细的训练过程，全！都！开！源！

　　目前模型权重、Demo、数据集已经发布到 HuggingFace，更多内容还在加速整理中。

　　已有尝鲜的网友惊奇发现，这位“奥赛做题家”模型的一点秘诀：会主动使用 Python 代码验证自己的想法。

　　Numina 团队一战成名，但还比较神秘——

　　并非隶属于某个大学或公司，而是一个独立的非盈利组织，要引领 AI4Math 的开放研究。

　　他们到底是谁，具体如何让大模型解决数学奥赛难题，我们找到负责人李嘉聊了聊。（因签证问题，李嘉没能去现场领奖）

　　陶哲轩支持的 AI 数学奥赛

　　首先来了解一下这个比赛。

　　AI 数学奥林匹克奖（AIMO），于 2023 年 11 月设立，旨在促进能在 IMO 竞赛中赢得金牌的开放共享 AI 模型诞生。

　　顾问委员会成员包括菲尔兹奖得主陶哲轩和 Timothy Gowers、以及更多著名数学家、AI 和机器学习专家。

　　500 万美元大奖（The Grand Prize），将颁发给首个在获批竞赛中达到 IMO 金牌标准的 AI 模型。

　　除了大奖之外，AIMO 还推出了一系列进步奖，用来纪念朝着这一最终目标的里程碑。

　　Numina 团队赢得的是首个进步奖（The First Progress Prize），题目难度低于 IMO 决赛，属于 IMO 预选赛水平。

　　△赛题示例

　　可能与大家想象中的不一样，这场比赛规则比较特别：

　　而且除了公共题目以外，同样还有 50 道参赛者看不到的私有题目。

　　换句话说：靠砸钱、砸算力刷榜是行不通的，靠“押题”去拟合题目也是行不通的，想赢必须实打实的在方法创新上做文章了。

　　100 万道数学题微调

　　由于算力和时间的限制，决定了无法使用太大的模型，团队的初步想法是 7B-20B。

　　经过实验对比后，最终选择了DeepSeekMath-Base 7B作为底座模型。

　　由经过整个比赛过程中的多次迭代，最终获奖方案由三个主要部分组成：

　　李嘉向量子位进一步介绍了训练过程中的细节，主要参考了来自好未来和中国海洋大学的一篇论文MuMath-Code。

第一阶段的训练，在一个接近 100 万条 CoT（思维链）的数据集上做微调，微调数据为数学问题和按详细步骤解题的文本答案
第二阶段的训练，在一个 10 万条 TORA （Tool Integrated Reasonning Agent）的数据集上做微调，使得模型可以多次输出思维链加上代码来解数学题。
最终部署的时候，模型输出代码我们把执行结果返回给模型继续推理直接推理结束。
为了加快解题速度，团队提交的是 8bit 量化的模型，用 vllm 做 32 次采样做 majority voting

　　经过这样一系列步骤，基础模型就成了“数学做题家”，拿来闲聊、多轮对话它是不擅长的，会把一切都当成题来做。

　　Demo 发布后经网友测试，即使面对像“一千克棉花和一千克铁谁重”这种脑筋急转弯问题，也会严格按照分解步骤、列式子、写代码，最后再分析代码执行结果得出结论。