MMLU已死?「人类最后考试」登Nature:全球AI模型集体不及格!

  新智元报道

  编辑:KingHZ

  从高德纳震惊 Claude 解难题,到陶哲轩称 GPT-5.2pro 够发 Nature 数学博士……AI 狂飙突进,却在 「人类最后的考试」上集体哑火:最高分不过 50%,人类专家还有多大安全区?

  AI 新闻圈,两天一地震,三天一颠覆,让你目不暇接、眼花缭乱!

  或有夸大的地方,但 AI 日新月异、有目共睹!

  「算法分析祖师爷」高德纳见证了 Claude 解决了一道高难度算法题,发文连用两个「震惊」(shock)。

  数学家陶哲轩宣布 GPT 5.2 Pro 解决了一个数学 Erdos 难题且完全与之前人类的解法不同,足以拿下数学博士学位了!

  此前,更有 Claude Code 引发的 Vibe Coding 热潮。

  至于各种长期存在的基准测试,AI 取得优异成绩已不足为怪!

  AI 研究人员早已意识到问题:这些测试太简单了。

  像大规模多任务语言理解(MMLU)这类曾被视为难度颇高的热门评测,如今已无法有效检验先进 AI 系统的真实水平

  问题在于:AI 模型发展得如此之快,基准测试正难以跟上其步伐,难以确保 AI 安全有效。

  在 MMLU 等热门基准测试中,大语言模型的准确率现已超过 90%,早已「饱和」。

  「人类最后的考试」的新 AI 测试基准,或许能提供解决方案。

  各大 LLM 在不同基准上准确率的对比

  最近,这篇合作名单巨长的论文,正式登上顶刊 Nature!

  链接:https://www.nature.com/articles/s41586-025-09962-4

  顺便提一句,Alexandr Wang 还在 Scale AI 时,相关工作已发表在预印本平台 Arxiv。

  AI 基准:测试,再测试

  从性能和安全等角度来看,测试大语言模型有多种不同的方法。

  例如,在发布前,AI 开发人员会评估大语言模型被用于恶意目的的抵抗能力。

  此外,还有一些独立组织对大语言模型进行评估,比如评估大语言模型被用于自主利用软件漏洞的风险。

  然而,这些测试通常只涵盖狭窄的学科领域,或者只包含少量任务。

  为了比较模型而创建更广泛、标准化基准的尝试包括 MMLU,它使用大约 16000 道多项选择题来测试模型的通用知识和解决问题的能力。

  但很快,过去那些曾经很难的考试,现在对 AI 来说已经变成了「送分题」。

  为了弥补这一差距,近 1000 名研究人员组成的全球联盟创建了「人类最后的考试」(Humanity’s Last Exam,HLE。

  该测试由 AI 安全中心 CAIS 和 Scale AI 的一个团队开发,包含由全球研究人员提交的 3000 个具有挑战性的问题,旨在成为衡量大语言模型能力的终极基准

  这项基准测试覆盖面极广、挑战性极高、深深植根于人类专家知识,以至于当前最强的 AI 准确率也不足 50%。

  「人类最后的考试」共包含 2500 道问题,涵盖数学、人文学科、自然科学、古代语言以及高度专业化的子领域。

  问题学科分布

  这些题目非常专业:从翻译古代巴尔米拉铭文,到识别鸟类的显微解剖结构,再到分析圣经希伯来语发音的复杂特征。

  每道题都经过了领先 AI 模型的测试。如果有任何系统能答对,该题就会被剔除。最终形成的是一项经过精心设计、恰好处于当前 AI 能力边界之外的考试。

  从 7 万到提交的难题中,精挑细选出了其中的 2500 道题目

  结果也证实了这一点。

  早期结果显示,即使是最先进的模型也举步维艰:

  • GPT-4o 得分 2.7%;

  • Claude 3.5 Sonnet 达到 4.1%;

  • OpenAI 的旗舰模型 o1 仅取得8% 的成绩。

  新基准为何重要

  德州农工大学计算机科学与工程系的教学副教授 Tung Nguyen,他参与了问题的撰写和完善工作。

  他贡献了 2500 道公开考题中的 73 道(贡献量位居第二),并且在数学和计算机科学领域撰写的题目数量最多。

  最近,他分享了对「人类最后的考试」的思考。

  「当 AI 系统开始在人类设定的基准测试中表现得极为出色时,人们很容易认为它们正在接近人类水平的理解力,」Tung Nguyen 说道。

  但 HLE 提醒我们,智能不仅仅是模式识别——它关乎深度、背景和专业化的知识。

  这个考试的目的并非难倒人类。而是要精确、系统地揭示出 AI 目前——至少是现阶段——还无法做到的事情。

  链接:lastexam.ai

  Tung Nguyen 表示,AI 超越传统基准的问题远超学术层面。

  「如果没有准确的评估工具,政策制定者、开发者和用户就可能误解 AI 系统的实际能力,」他说。「基准测试为衡量进展和识别风险提供了基础。

  正如团队论文所指出的,虽然 AI 可能在为人类设计的考试中表现出色,但这些测试不一定在衡量「智能」。

  尽管名字听起来有点「末日」感,但「人类最后的考试」并非意在暗示人类重要性的终结。

  相反,它突显了仍有大量知识是独一无二地属于人类的,以及 AI 还需要走多远。

  Tung Nguyen 坦言:「这个名字有点半开玩笑的意味」。

  重要的是背后的理念:

  这是人类对 AI 的设置的最后一道难关。如果 AI 能通过这项考试,就意味着它达到了某种专业化的人类专家水平,而这在以前被认为是机器不可能做到的。

  因为 HLE 涵盖了从核物理到古代史的所有领域,所以没人能通过单打独斗的通过整个考试。

  然而,特定领域的人类专家可以轻松回答其专业领域内的问题,而 AI 在几乎所有类别上都失败了。

  为什么 AI 还会失败?

  原因在于 AI 擅长模式识别和总结已知数据,但它难以处理深度、专业化的背景知识。

  HLE 提出的问题需要多年的专门研究。在这些问题上,基于常见互联网数据的「猜测」行不通。

  参考资料:

  https://www.nature.com/articles/s41586-025-09962-4

  https://stories.tamu.edu/news/2026/02/25/dont-panic-humanitys-last-exam-has-begun/