国思软件 - MMLU已死？「人类最后考试」登Nature：全球AI模型集体不及格！

　　新智元报道

　　编辑：KingHZ

　　从高德纳震惊 Claude 解难题，到陶哲轩称 GPT-5.2pro 够发 Nature 数学博士……AI 狂飙突进，却在「人类最后的考试」上集体哑火：最高分不过 50%，人类专家还有多大安全区？

　　AI 新闻圈，两天一地震，三天一颠覆，让你目不暇接、眼花缭乱！

　　或有夸大的地方，但 AI 日新月异、有目共睹！

　　「算法分析祖师爷」高德纳见证了 Claude 解决了一道高难度算法题，发文连用两个「震惊」（shock）。

　　数学家陶哲轩宣布 GPT 5.2 Pro 解决了一个数学 Erdos 难题且完全与之前人类的解法不同，足以拿下数学博士学位了！

　　此前，更有 Claude Code 引发的 Vibe Coding 热潮。

　　至于各种长期存在的基准测试，AI 取得优异成绩已不足为怪！

　　AI 研究人员早已意识到问题：这些测试太简单了。

　　像大规模多任务语言理解（MMLU）这类曾被视为难度颇高的热门评测，如今已无法有效检验先进 AI 系统的真实水平

　　问题在于：AI 模型发展得如此之快，基准测试正难以跟上其步伐，难以确保 AI 安全有效。

　　在 MMLU 等热门基准测试中，大语言模型的准确率现已超过 90%，早已「饱和」。

　　「人类最后的考试」的新 AI 测试基准，或许能提供解决方案。

　　各大 LLM 在不同基准上准确率的对比

　　最近，这篇合作名单巨长的论文，正式登上顶刊 Nature!

　　链接：https://www.nature.com/articles/s41586-025-09962-4

　　顺便提一句，Alexandr Wang 还在 Scale AI 时，相关工作已发表在预印本平台 Arxiv。

　　AI 基准：测试，再测试

　　从性能和安全等角度来看，测试大语言模型有多种不同的方法。

　　例如，在发布前，AI 开发人员会评估大语言模型被用于恶意目的的抵抗能力。

　　此外，还有一些独立组织对大语言模型进行评估，比如评估大语言模型被用于自主利用软件漏洞的风险。

　　然而，这些测试通常只涵盖狭窄的学科领域，或者只包含少量任务。

　　为了比较模型而创建更广泛、标准化基准的尝试包括 MMLU，它使用大约 16000 道多项选择题来测试模型的通用知识和解决问题的能力。

　　但很快，过去那些曾经很难的考试，现在对 AI 来说已经变成了「送分题」。

　　为了弥补这一差距，近 1000 名研究人员组成的全球联盟创建了「人类最后的考试」（Humanity’s Last Exam，HLE。

　　该测试由 AI 安全中心 CAIS 和 Scale AI 的一个团队开发，包含由全球研究人员提交的 3000 个具有挑战性的问题，旨在成为衡量大语言模型能力的终极基准

　　这项基准测试覆盖面极广、挑战性极高、深深植根于人类专家知识，以至于当前最强的 AI 准确率也不足 50%。

　　「人类最后的考试」共包含 2500 道问题，涵盖数学、人文学科、自然科学、古代语言以及高度专业化的子领域。

　　问题学科分布

　　这些题目非常专业：从翻译古代巴尔米拉铭文，到识别鸟类的显微解剖结构，再到分析圣经希伯来语发音的复杂特征。

　　每道题都经过了领先 AI 模型的测试。如果有任何系统能答对，该题就会被剔除。最终形成的是一项经过精心设计、恰好处于当前 AI 能力边界之外的考试。

　　从 7 万到提交的难题中，精挑细选出了其中的 2500 道题目

　　结果也证实了这一点。

　　早期结果显示，即使是最先进的模型也举步维艰：

GPT-4o 得分 2.7%；
Claude 3.5 Sonnet 达到 4.1%；
OpenAI 的旗舰模型 o1 仅取得8% 的成绩。

　　新基准为何重要

　　德州农工大学计算机科学与工程系的教学副教授 Tung Nguyen，他参与了问题的撰写和完善工作。

　　他贡献了 2500 道公开考题中的 73 道（贡献量位居第二），并且在数学和计算机科学领域撰写的题目数量最多。

　　最近，他分享了对「人类最后的考试」的思考。

　　「当 AI 系统开始在人类设定的基准测试中表现得极为出色时，人们很容易认为它们正在接近人类水平的理解力，」Tung Nguyen 说道。

　　但 HLE 提醒我们，智能不仅仅是模式识别——它关乎深度、背景和专业化的知识。

　　这个考试的目的并非难倒人类。而是要精确、系统地揭示出 AI 目前——至少是现阶段——还无法做到的事情。

　　链接：lastexam.ai

　　Tung Nguyen 表示，AI 超越传统基准的问题远超学术层面。

　　「如果没有准确的评估工具，政策制定者、开发者和用户就可能误解 AI 系统的实际能力，」他说。「基准测试为衡量进展和识别风险提供了基础。」

　　正如团队论文所指出的，虽然 AI 可能在为人类设计的考试中表现出色，但这些测试不一定在衡量「智能」。

　　尽管名字听起来有点「末日」感，但「人类最后的考试」并非意在暗示人类重要性的终结。

　　相反，它突显了仍有大量知识是独一无二地属于人类的，以及 AI 还需要走多远。

　　Tung Nguyen 坦言：「这个名字有点半开玩笑的意味」。

　　重要的是背后的理念：

　　这是人类对 AI 的设置的最后一道难关。如果 AI 能通过这项考试，就意味着它达到了某种专业化的人类专家水平，而这在以前被认为是机器不可能做到的。

　　因为 HLE 涵盖了从核物理到古代史的所有领域，所以没人能通过单打独斗的通过整个考试。

　　然而，特定领域的人类专家可以轻松回答其专业领域内的问题，而 AI 在几乎所有类别上都失败了。

　　为什么 AI 还会失败？

　　原因在于 AI 擅长模式识别和总结已知数据，但它难以处理深度、专业化的背景知识。

　　HLE 提出的问题需要多年的专门研究。在这些问题上，基于常见互联网数据的「猜测」行不通。

　　参考资料：

　　https://www.nature.com/articles/s41586-025-09962-4

　　https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/

MMLU已死？「人类最后考试」登Nature：全球AI模型集体不及格！

我们的产品

相关链接

关于我们

联系我们