中国五连冠终结,美国重登IMO宝座!AI智商被第一题打回原形

  新智元报道

  编辑:桃子好困

  IMO 2024 最终结果终于出炉了!破天荒的是,四年后美国队再次斩获第一,领先中国队两分。对于 LLM 来说,IMO 最简单的第一题,GPT-4o、Claude 3.5 Sonnet 等模型全部回答失败了。

  中国蝉联 IMO 五年冠军的纪录,如今被美国队打破了!

  这几天,第 65 届 IMO 公布了最终获胜国家队,美国以 192 分的成绩位列第一,中国以 2 分之差位居第二。

  值得一提的是,印度队首次冲进第四。

中国和美国 IMO 团队均拿下了 5 枚金牌,1 枚银牌

  IMO 是全球最顶尖的高中数学竞赛,吸引了来自世界各地的优秀年轻数学家。

  今年,有 108 个国家和地区的 609 名学生参赛。

  中国队中的 Haojia Shi 已经连续两次获得个人满分的选手,也是史上第 7 位获得满分的选手。

  美国选手 Alexander Wang 和 Jessica Wan 分别在个人排名中位列第三和第五。

  六位队员,四个是华人

  从左到右:Jessica Wan, Alexander Wang, Tiger Zhang, Jordan Lefkowitz, Carl Schildkraut (Deputy Leader), Krishna Pothapragada, Linus Tang

  2024 年美国 IMO 队成员是:

  - Jordan Lefkowitz,17 岁(康涅狄格州)

  - Krishna Pothapragada,18 岁(伊利诺伊州)

  - Jessica Wan,18 岁(佛罗里达州)

  - Alexander Wang,16 岁(新泽西州)

  - Qiao(Tiger)Zhang,16 岁(加利福尼亚州)

  - Linus Tang,18 岁(加利福尼亚州)

  Jessica Wan 是自 2007 年以来,第一个加入美国 IMO 团队的女性。个人成绩虽没有大满贯,但也拿下了 4 个满分。

  而在此之前,她便是一个数学领域的尖子生。

  去年,MIT 举办的第 15 届女性数学(MP4G)大赛上,就读高中的 Jessica Wan 夺得了三连冠。

  比赛中,20 道题目中,Jessica 做对了 17 道,成为这次 MP4G 竞赛中,最成功的参与者。

  她还连续四年,参与了欧洲女子数学奥林匹克(EGMO)竞赛,其中两次拔得头筹。

  Alexander Wang 是新泽西州 Millburn 学校的高一学生。

  对他来说,数学是一门有趣而简洁的学科。从幼儿园起,Wang 便对数学非常感兴趣。

  为了能够帮助更多的学生学习数学,发现数学的有趣之处,他联手 Angelina Wang、Bill Sun 成立了一个非盈利的组织——impact learners。

  值得一提的是,他也是 IMO 2023 美国队的成员之一。在 2023 罗马尼亚数学大师赛上获得了个人金牌和团体冠军,他还两次入选 MATHCOUNTS 全国赛。

  Linus Tang 就读于内华达州里诺市的 Davidson Academy 线上课程。2021 年,在斯坦福数学锦标赛上,他在组合数学中获得第一名。

  他曾在 2022 年春季,研究了一个名为「保加利亚纸牌」游戏的数学原理。

  在 Linus 一年的时候,他便赢得了人生首个数学奖——Math Kangaroo,他表示,在幼儿时期在拼图游戏中花费大量时间,锻炼了自己的视觉化能力。

  十年 IMO leader 更人

  值得一提的是,这次美国队能够获胜,与项目 leader 也有一定的关系。

  自 2014 年以来,美国 IMO 队一直由华裔数学家、CMU 教授 Po-Shen Loh(罗博深)带队,他曾带领美国队分别在 2015、2016、2018、2019 年,赢得了 IMO 金牌。

  2019 年那次,是中国队与美国队并列第一,至此四年后中国队连霸榜首,美国队一直位列全球第二。

  这次,John Berman 成为了美国 IMO 队的负责人。

  他获得了 MIT 数学学士学位,并在 2018 年获得了弗吉尼亚大学的数学博士学位。目前,他还是 Geodemath 在线课程的导师。

  在团队获胜后,Berman 发文对此表示庆祝。

  IMO 2024 试题

  本届国际奥数竞赛共有 6 道题目,9 小时作答时间。

  以下是完整试卷内容,感兴趣的小伙伴尝试挑战下。

  第一题解析:https://www.youtube.com/watch?v=50W_ntnPX0k

  第二题解析:https://www.youtube.com/watch?v=VXFG1t_ksfI

  第三题解析:https://www.youtube.com/watch?v=ASV1dZCuWGs

  第四题解析:https://www.youtube.com/watch?v=WnZv3fdpFXo

  第五题解析:https://www.youtube.com/watch?v=wfQkk9WktGE

  第六题解析:https://www.youtube.com/watch?v=7h3gJfWnDoc

  IMO 第一题,大模型惨败

  有网友表示,IMO 试题为前沿模型提供了一个很好的测试集。

  一般来说,IMO 试题仅需要高中数学知识就够了,而且第一道题最简单,人类选手通常会在 60 分钟内完成。

  那么,你能猜到,对于地表最强的 LLM 来说,做的如何?

  经过一番测试,结果如下:

GPT-4:失败。即使指出错误,也无济于事。 GPT-4o:失败。即使指出错误,也无济于事。 Claude 3.5 Sonnet:失败。指出错误确实帮助模型简短地给出了正确答案,但随后继续走上了错误的道路。

  看来,大模型要走的路,还远着呢。

  参考资料:

  https://www.zhihu.com/question/662130364?utm_psn=1798276113539153920

  https://x.com/sytelus/status/1815203518913085900