撰文丨王聪
编辑丨王多鱼
排版丨水成文
人工智能(AI),特别是像 GPT-4 这样的大语言模型(LLM),在推理任务上表现出了令人印象深刻的性能。
但这些 AI 真正实现了对抽象概念的l理解吗?抑或是仅仅停留在了模式模仿层面?
最近,阿姆斯特丹大学和圣塔菲研究所的一项新研究表明,虽然 GPT 模型在一些推理类比任务中表现良好,但当问题发生改变时,它们就不行了,这突出了 AI 推理能力的关键弱点。
类比推理是根据两个不同事物在某些方面的相似性来进行比较的能力。这是人类试图了解世界和做出决定的最常见的方法之一。
举个类比推理的例子:杯子之于咖啡,就像汤之于碗。从杯子与咖啡的关系,类比推理出与汤具有类似关系的是碗。
像 GPT-4 这样的大语言模型在各种测试中表现良好,包括那些需要类比推理的测试。但是,AI 真的可以进行通用的、稳健(鲁棒性)的推理吗?还是过度依赖于训练数据中的模式?
阿姆斯特丹大学的 Martha Lewis 与圣塔菲研究所的 Melanie Mitchell 在这项研究检查了 GPT 模型(GPT-3、GPT-3.5、GPT-4)在进行类比推理时是否像人类一样灵活和稳健。考虑到 AI 在现实世界中被越来越多地应用于决策和解决问题,因此,AI 的类比推理能力显得尤为重要。
他们比较了人类与 GPT 模型在三种不同类型的类比问题中的表现:
-
字母字符串类比——测试对字母序列变换规则的推理;
-
数字矩阵推理——分析数字矩阵模式并补全其中缺失的数字;
-
故事类比——理解两个故事中的哪一个更符合给定的例子故事。
除了测试 GPT 模型是否可以理解原始问题外,该研究还测试了当问题被微妙修改时,它们的表现如何。例如,在字母字符串类比中,将打乱的字母顺序作为新字母表,或使用非字母符号代替字母;在数字矩阵推理中,随机放置缺失的数字位置,或用符号代替数字;在故事类比中,调换答案顺序,或保持故事的因果结构但改变表达内容。
论文作者指出,一个能够真正理解类比推理的系统应该即使面对这些变化也能保持高性能。
结果显示,在字母字符串类比中,对于简单类比,无论问题是否被修改,人类的正确率稳定在 75% 左右,而 GPT 在问题被修改后正确率显著下降,例如,GPT 从 45% 下降至 35%。对于复杂类比,人类和 GPT 表现都比较差,但人类仍优于 GPT。
在数字矩阵推理中,随机放置缺失的数字位置,人类的正确率稳定在 77% 左右,而 GPT 则显著下降,例如,GPT-4 从 81% 下降至 48%。但符号代替数字后,人类和 GPT 均未产生显著变化。
在故事类比中,GPT 模型更倾向于选择第一个给定的答案作为正确答案,而人类不受答案顺序的影响。此外,当故事的关键元素被改写时,GPT 表现的比人类更吃力,这表明 GPT 依赖于表面的相似性,而不是更深层的因果推理。
论文作者认为,这表明了 AI 的推理通常不如人类灵活,它们的推理与真正的抽象理解无关,而是更多地进行模式匹配。
之前一个广泛的假设是,即像 GPT-4 这样的人工智能模型具有涌现类比推理能力,可以像人类一样推理,而这项研究表明事实并非如此,并指出了其推理的脆弱性。
虽然 AI 展示了令人印象深刻的能力,但这并不意味着它们真正理解自己在做什么,它们在各种变化中的泛化能力仍然远远弱于人类的认知能力,GPT 模型通常依赖于表面模式,而不是深度理解。这也提醒了我们,AI 可以成为一个强大的工具,但它还不能取代人类的思维和推理。因此,在教育、法律以及医疗等重要决策领域,使用 AI 需要慎重。
论文链接:
Evaluating the Robustness of Analogical Reasoning in Large Language Models