Trump当选概率有多大?UC伯克利CAIS联手打造「AI预言家」,吊打人类分析师

  新智元报道

  编辑:乔杨 Frey

  AI 的能力终于癫成了和这个世界匹配的样子——来自 UCB 等机构的研究者们用 GPT-4o,开发出了一个「AI 预言家」。

  LLM 的神奇职能,又多了一个。

  用更形象的话说,就是中国的「算命签」、欧洲的「水晶球」,可以用「超人」的能力预测未来。

  去年 12 月,Nature 就刊登了一篇研究,可以用 LLM 预测一个人生活中即将发生的事件,就像预测句子中的 next token 一样。

  实验结果表明,这个模型甚至能预测一个人未来 4 年内死亡的可能性,准确率高达 78.8%。

  最近,AI 安全中心总监 Dan Hendrycks 联合加州大学伯克利分校的研究人员,开发了一个更强大的系统 FiveThirtyNine,预测更宏观的社会事件,比如「Trump 能否赢得 2024 年大选」。

  这个 AI 预测机器人基于 GPT-4o 构建,用户输入想查询的事件,FiveThirtyNine 就能预测出发生的概率,就像天气预报中给出的下雨概率一样。

  那么预测的准确度和可信度如何?

  知名作家、民意调查师 Nate Silver 最近在一档节目上表示,AI 不会很快取代人类预测分析师的能力。想看到超人的预测能力,起码要等 15 年。

  Nate Silver 最新预测:Trump 有 64% 的获胜几率

  但这个项目的作者表示不服,他们表示,539 的表现好过经验丰富的人类预报员单打独斗,大致和一群预报员合作的表现相当,甚至更好。

  因此,分析预测市场很快就能通过 AI 实现自动化!

  从项目 Demo 中也能发现,539 能够预测的事件范围也很广泛,比如美国大选是政坛事件,其他领域包括生物安全、AI 技术、环境健康、网络安全等也都能预测。

  原文地址:https://www.safe.ai/blog/forecasting

  Demo 地址:https://forecast.safe.ai/

  除了放出博客文章和 Demo,研发团队还计划出一篇详细的技术报告,虽然还没完稿,但坑位已经占上了,感兴趣的朋友可以期待下。

  原文地址: https://drive.google.com/file/d/1Tc_xY1NM-US4mZ4OpzxrpTudyo1W4KsE/view

  为什么给这个机器人取名叫 FiveThirtyNine?

  原作者特地发推解释,原来是想致敬著名的民意预测员 Nate Silver,但又要表示 AI 的能力比他强,因此本来计划取名为 Nate Gold。

  但没得到本人同意,只好借用他 twitter 名的后缀 538,再 +1 表示「迭代」一版,就得到了 539。

  FiveThirtyNine 工作原理

  这里,简单总结下 FiveThirtyNine 的工作原理。

  举个例子,如果向 FiveThirtyNine 询问「Trump 会赢得 2024 年美国总统大选吗?」。

  接收了这一 Prompt 的 FiveThirtyNine,就如同一个 AI 预言家一样,会借助搜索引擎检索相关的新闻和文章,整合信息并做出预测。

  基于 GPT-4o 的 FiveThirtyNine 的预测示例

  Prompt 的内容也是很重要的,可能是为了复现方便,作者给出了实验中使用的 prompt 模板。

  在充足的先验知识的基础上,FiveThirtyNine 首先会依据事实总结归纳。

  对一件事的 Yes/No 两方面,539 会分别给出支持或反对的理由,再依据重要性分配相应的权重,可解释性拉满了。

  比如,预测 Trump 当选的论据包括:票仓强劲、支持率经常被低估、刚获得的法律豁免权、他主张的经济复苏措施等等。

  反面的论据也有 5 个,同样现实且有力,包括 Harris 民意调查领先、筹款优势和关键人群的支持,以及 Trump 本人的极化倾向和法律挑战。

  总结这些论据后,FiveThirtyNine 还会「酌情处理」消极新闻、抓马事件和耸人听闻的偏见,整合多重因素,给出一个初步的概率。

  最后,它还需要对这个概率值进行理性分析,结合推理进一步优化,并给出校准后的概率——在本例中为 52%。

  AI 预言家优于市场预测为了测试 AI 预言家的表现,作者们借助 Metaculus 平台的问题对其进行了评估。

  为了比较的公正性,AI 预言家与人工预言家使用相同的信息。

  值得注意的是,GPT-4o 的数据仅囊括 2023 年 10 月之前的,因此研究者将新闻和文章都限定在该日期前,要求 539 和人类分别计算 Metaculus 中 177 个事件发生的概率。

  针对这 177 个事件,Metaculus 自身模型的预测准确率为 87.0%,而 FiveThirtyNine 将其提升至 87.7%±1.4。

  相对于市场预测,AI 预言家具有多种其无法比拟的优势。如,它能在几秒内快速生成预测,速度比当前市场预测高了几个数量级。

  不仅速度更快,还不需要额外的奖励机制去优化预测,在精度相当的情况下,显然 AI 预言家更具性价比。

  局限性

  虽然作者放话表示,AI 预言家已经优于人类预测员,但这个机器人依旧存在不少工程和性能上的局限性。

  比如,539 依旧会对无效查询做出回应,因为作者还没给它加上拒绝功能。

  实时更新知识库这方面,也有显著的缺陷,毕竟它还没能接上推特的 API。

  5G 冲浪的网友可以马上知道推特上的热门事件,但如果涉及到预训练所用的知识库盲区,539 就一无所知。

  比如,刚刚完成预训练的 539 还不知道 Joe Biden 已经退选,如果不重新过一遍知识库,依旧会傻傻地预测 Biden 当选的概率。

  尤其是对于那些迫在眉睫、即将见分晓的事件,这种迟钝的反应是完全比不上人类的。

  更重要的是,当前的「AI 预言家」没有经过微调,还未达到最优精度,仅仅是依据工程化的 Prompt 检索并撰写总结报告。

  可通过单击 forecast.safe.ai 中的齿轮图标找到它的 prompt

  此外,「自动化偏见」(automation bias)也是一个重要的问题,推特评论区也有网友问到。

  「自动化偏见」是社会心理学领域的发现,即人类倾向于过度依赖自动化系统的建议,而忽略而忽略非自动化方式产生的矛盾信息,即使这些信息是正确的。

  作者表示,这个问题或许可以通过优化界面来改进或避免。

  尽管机器人在广度、速度和准确性方面通常表现优异,但在某些特定方面,它依旧比不上人类。

  比如在非常依赖专业知识的金融领域,539 对市场的预测能力还没有被验证。

  它的预测还可能忽视尾部风险,造成「自证预言」。如果改进这一缺陷,AI 预言家的预测精度可能会得到极大的提升。

  研究者称,最初将其称为超人,并不是指它在各个方面都无懈可击,只是想表达 AI 预言家的预测能力并不比人类逊色。

  就像何恺明大神也会宣称 PReLU 网络在 ImageNet 上有「超人性能」一样,虽然也会犯人类不可能犯的错误,但不耽误 AI 在某些方面匹配甚至超越人类表现。

  「AI 预言家」能干什么

  如果说,以维基百科为代表的认知技术,推动了人类参与知情讨论、维持现实共识,以及构建共同的世界观,那么未来 AI 的用途,可能会走得更远。

  作为中立的智能第三方,「AI 预言家」或许可以改进决策和公共话语,有助于缓和极端、立场两极分化的事件。

  完善聊天机器人功能

  将 AI 预测功能集成到 AI 聊天机器人或个人 AI 助手中,可以辅助决策、规避风险。

  例如,可以为政策制定者们提供值得信赖、公正的概率评估,还可以帮助量化专家规避风险。

  补充新闻报道

  AI 预言家还可用来补充新闻报道,比如帮助预测加州 AI 安全法案 SB 1047 成功签署的可能性。

  美国著名天文学家 Carl Sagan 曾说过,「如果单纯积累力量而不增长智慧,人类必定会走向自我毁灭的道路」。

  不可否认,未来 AI 技术将不断变强,而其所具备的预测能力也有望为我们提供预警式和启发式的建议。

  网友评论

  「AI 预言家」这个项目可以说是看点十足,很能吸引眼球,但推特上的网友大多持负面评论。

  有人认为这只是给 GPT-4o 套了个壳、做了点提示工程,本质上是一个「新闻阅读器」的应用。

  还有人指责作者「路走歪了」,除了炒作,这类项目完全看不到价值或实际功用。

  此外,也有技术方面的质疑。

  因为作者提到,在评估时允许机器人接入互联网,在有日期截断的前提下,防止它得知事件结果。

  但「日期截断」这个功能完全不可靠,反例一抓一大把,因此评估结果也是靠不住的。

  其中的技术含量究竟有多少?所谓「超越人类表现」的评估结果到底能告诉我们什么?

  看来只有等技术报告发布后才能得知了。

  参考资料:

  https://www.safe.ai/blog/forecasting

  https://x.com/DanHendrycks/status/1833152719756116154