国思软件 - Grok 3冲击诺奖级突破，成证明「黎曼猜想」关键！AI与数学家打出终极组合拳

　　新智元报道

　　编辑：犀牛桃子

　　猜想界的皇冠——黎曼猜想，离被证明的那一天不远了。Grok 3 便是关键所在：暴力计算+验证器能让 AI 穷举所有解法，再加上 AI 辅助科学家打出的组合拳，下一个诺奖级突破近在咫尺。

　　困扰人类一个多世纪的「黎曼猜想」，如今可能正站在被破解的边缘。

　　这周发布的 Grok 3 异军突起，不仅横扫各大排行榜，更将目光投向了这个「猜想界的皇冠」。

　　风投机构 IBC Group 创始人 Mario Nawfal 发文称，破解黎曼猜想的竞赛正在升温，而 Grok 3 可能正是关键所在！

　　究竟是什么原因，让他敢于做出这样一个判断？

　　暴力计算：凭借足够的计算能力和验证器，AI 可以穷举所有解法。
　　人工智能+人类合作：AI 辅助顶尖科学家，可能会带来图灵奖、菲尔兹奖，甚至诺奖级别的突破。

　　有了这双重 buff 的加持，Grok 估计什么时候可以解决这一世纪难题？根据马斯克的预测，「基于 AI 的进展，可能将在两年内实现」。

　　在 Mario 看来，虽然目前还没有解决方案——但 Grok 3 正在逐步接近破解这个数学界最大的未解之谜之一！

　　网友对此激动地表示，「暴力计算和人类洞察力的结合，简直是终极组合拳」。

　　甚至，还有人大胆预言，下一个诺奖得主就是 AI。

　　Grok 3 对决黎曼猜想：突破即将到来？

　　在 Grok 3 还未横空出世之前，曾被 xAI 工程师硬广了一波。

　　为此，xAI 不得不终止模型训练，以验证它的证明。他表示，如果结果是正确的，将会完全终止模型的训练。

　　之后，Hieu Pham 发帖称这只是自己的恶搞

　　要知道，黎曼猜想可是千禧年七大数学难题之一。

　　这一次，基于 20 万块 GPU 训出的 Grok 3，在数学基准测试中 AIME 2024 上刷新 SOTA，创下了 52 高分。mini 版本性能几乎与 Claude 3.5 持平。

　　与此同时，xAI 团队专门针对最新 AIME 2025 基准，对 Grok 3 模型推理版本进行了测试，更是创下了 93 分纪录。

　　AI 大神 Karpathhy 在 Grok 3 还未发布之前，曾拿到了灰度测试资格，让其去证明黎曼猜想猜想。

　　他表示，相较于其他模型（如 o1-pro、Claude、Gemini 2.0 Flash Thinking），只会简单表示——这是一个伟大的未解之谜，Grok 3 非常有勇气，会尝试去解决问题。

　　虽然没有攻克，但是迈出了「尝试」的重要一步。

　　正如 Karpathhy 所言，谁知呢，总会有那么一天...

　　甚至，就连菲尔兹奖得主陶哲轩大胆预测，2026 年，AI 将与搜索和符号数学工具相结合，成为数学研究中值得信赖的合著者。

　　对此，有网友对于人工智能辅助破解数学谜题的前景感到兴奋。

　　更有网友期待 Grok 3 将量子力学与相对论一起联系起来。

　　「可能性是无限的」该网友评论道。

　　Grok 3 全面领先！

　　Grok 3 目前在聊天机器人竞技场（Chatbot Arena）上大幅领先，并且是长期以来第一个在所有类别中都排名第一的模型。

　　这些排名是基于人类的盲测评估得出的。

　　对此，马斯克表示，Grok 位居第一，并持续改进。

　　「这个结果是基于两周前的 Grok 版本。自那时以来 Grok 有显著改进。」他表示。

　　网友 Gavin Baker 评论说，从 2022 年夏季到 2024 年春季，OpenAI 曾大幅领先，随后谷歌和 Anthropic 赶上了 GPT-4 的水平。

　　OpenAI 能够主导大约 7 个季度，这归功于他们率先积极押注于预训练的传统「Scaling Law」。然而，率先实现 o1 级别的推理仅仅使得 OpenAI 领先几个月。

　　目前，Deepseek、谷歌和 xAI 与 OpenAI 大致处于同等水平。xAI 甚至可以说处于领先地位。

　　谷歌和 xAI 的基础模型更优秀，因此它们很可能很快就会彻底超越 o3。因此，OpenAI 迫切需要 GPT-5，作为假定的 o5 推理模型的基础。

　　奥特曼指出，OpenAI 未来的领先优势将会缩小。微软 CEO 纳德拉也基本表示认同，OpenAI 在模型能力方面拥有巨大领先优势的时期即将结束。

　　网友 Gavin 表示，在他看来，这就是为什么 Nadell 根据 Theinformation 的消息，选择不为 OpenAI 1600 亿美元的预训练提供资金的原因。相反，他希望通过为 OpenAI 提供推理服务来赚钱。

　　Google 和 xAI 都拥有独特且有价值的数据来源，这将使它们与 Deepseek、OpenAI 和 Anthropic 之间的差异越来越大。如果 Meta 在模型能力方面赶上来，情况也是如此。

　　Gavin 同时指出，无法获得独特、有价值数据的前沿模型是历史上贬值最快的资产。模型蒸馏只会加剧这种情况。

　　Nadella 在最近一次播客中说，数据中心建设过剩即将到来，租用比购买更好。甚至在某个时候，微软可能会使用开源模型来驱动 CoPilot。

　　未来的前沿模型，如果无法获得像 YouTube、X、TeslaVision、Instagram 和 Facebook 这样独特、有价值的数据，可能无法获得任何投资回报 (ROI)。从这个角度来看，扎克伯格的策略似乎也更加合理。独特的数据最终可能成为区分多万亿或千万亿参数模型预训练的唯一基础，也是获得投资回报的唯一基础。

　　如果这是正确的，那么只有2-3 家公司会进行前沿模型的预训练，我们只需要少数几个巨型数据中心来构建预训练所需的相干集群。

　　其余的人工智能计算将由较小的数据中心完成，这些数据中心在地理位置上进行了优化，以实现低延迟和/或具有成本效益的推理。具有成本效益的推理等于更便宜、质量较低的电力（对核电的需求减少），在短期内对液冷的需求减少等。

　　这与目前6-10 家公司都在进行前沿模型预训练的世界截然不同。

　　推理模型需要极高的计算量。测试时计算意味着计算能力本身就是智能。因此，在这种情况下，所需的计算量甚至可能比 2023-2024 年整个市场所预期的以「预训练」为中心的计算场景还要多。

　　但这将是一种截然不同的计算类型，如上所述。预训练和推理之间的比例将不再是 50/50，而是5/95。基础设施的卓越性将至关重要。

　　对于网友 Gavin Baker 的这番分析，马斯克也表示认同。

　　「良好的分析」他评论道。

　　用户离开 ChatGPT 转向 Grok

　　有网友在x发文称，现在大量用户正在在从 ChatGPT 转向 Grok，并配上了一段形象的视频。

　　有网友调侃说，他妻子嫉妒 Grok 3，因为他跟 Grok 3 说的话比跟他妻子还多。

　　对于大家纷纷转向 Grok 这事儿，网友纷纷表示赞同。

　　什么是黎曼猜想？

　　黎曼猜想是一个数学领域里非常重要但至今没有解决的问题，它主要研究质数的分布规律，以及一个叫黎曼 zeta 函数的数学工具跟质数的关系。

　　质数是那些大于1、只能被 1 和自己整除的数字，比如2、3、5、7、11、13 等等。它们像是自然数的「积木」，因为任何一个自然数都可以拆成质数的乘积，比如 15 = 3 × 5。

　　质数的出现看起来很随机，没有简单的规律可循。

　　比如在 1 到 10 里有 4 个质数（2、3、5、7），11 到 20 里也有 4 个（11、13、17、19），但 21 到 30 里只有 2 个（23、29），数量分布不太好预测。

　　这让研究质数分布成了数学中一个大难题。

　　质数的研究不只是数学家的兴趣，它在现实生活中也很重要。比如，互联网上的安全通信（像网上银行、购物）靠一种叫 RSA 的密码系统保护，而 RSA 的基础就是利用大质数的不可预测性。

　　什么是黎曼 zeta 函数

　　1859 年，德国数学家伯恩哈德·黎曼（Bernhard Riemann）想出了一个研究质数的新办法，引入了一个叫黎曼 zeta 函数的东西，记作ζ(s)。

　　简单来说，zeta 函数是一个无限加法公式：

　　这里的「s」是一个复数，复数是一种特别的数字，比如 s = a + bi（a是实部，b是虚部，i是虚数单位）。

　　这个函数的神奇之处在于，它跟质数的分布有很深的联系。

　　zeta 函数的零点

　　零点就是让ζ(s)等于 0 的s值。研究发现，这些零点分成两类：

　　平凡零点：这些零点出现在 s = -2, -4, -6 等负的偶数位置。它们比较容易找到，性质也很明确。
　　非平凡零点：这些零点的实部（a值）在 0 到 1 之间，而且虚部（b值）不是0。它们的位置很神秘，很难算出来。目前通过计算机检查发现，所有已知的非平凡零点的实部都是1/2，但这只是观察结果，还没有数学证明能确认所有零点都这样。

　　黎曼猜想到底在猜什么？

　　黎曼猜想的核心是：所有的非平凡零点的实部都等于1/2。

　　想象一下，把复数 s = a + bi 画在平面上，横轴是实部a，纵轴是虚部b。

　　黎曼猜想说，所有非平凡零点都会整整齐齐地排在实部 a = 1/2 这条竖线上。

　　如果这个猜想是真的，它能让我们更清楚地知道质数是怎么分布的。

　　比如，它能更精确地预测某个范围内有多少个质数。这跟一个叫素数定理的东西有关，素数定理告诉我们质数的「大趋势」，而黎曼猜想则能解释趋势里的「小起伏」。

　　打个比方，把质数分布想象成一条河的流量，素数定理像是告诉你河水平均每天流多少水；黎曼猜想则是帮你搞清楚为什么有些天水流多些，有些天少些。

　　这种对质数的深入了解不只对数学家重要，还会影响像密码学这样的领域，因为密码系统需要质数尽量「随机」。

　　为什么这么受关注？

　　黎曼猜想从 1859 年提出到现在，已经 160 多年了，但还是没人能证明它是对是错。

　　它被认为是数学里最重要的问题之一，出现在 1900 年希尔伯特提出的 23 个数学难题里（第 8 个问题），也被 2000 年 Clay 数学研究所列为「千禧年七大难题」之一。

　　Clay 研究所还悬赏 100 万美元，鼓励全世界数学家来挑战这个问题。现在，计算机已经检查了无数个非平凡零点，发现它们的实部都是1/2，但这只是证据，不是严格的数学证明。

　　一些数学家，比如 Larry Guth 和 James Maynard，最近在这个问题上有了一些新进展，但离彻底解决还很远。

　　黎曼猜想不只是数学里的「脑洞」，它的研究还推动了很多数学分支的发展，比如复分析和数论的结合。

　　参考资料：

　　https://twitter.com/MarioNawfal/status/1893181929823895668

　　https://twitter.com/cb_doge/status/1893430235821154702

　　https://twitter.com/GavinSBaker/status/1893356200026116290

Grok 3冲击诺奖级突破，成证明「黎曼猜想」关键！AI与数学家打出终极组合拳

我们的产品

相关链接

关于我们

联系我们