准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源

  新智元报道

  编辑:LRS

  【新智元导读】马里兰大学联合北卡教堂山发布首个专为多模态大语言模型(MLLM)设计的图像序列的基准测试 Mementos,涵盖了真实世界图像序列、机器人图像序列,以及动漫图像序列,用 4761 个多样化图像序列的集合,全面测试 MLLM 对碎散图像序列的推理能力!

  OpenAI 的 GPT-4V 和谷歌最新的 Gemini 多模态大语言模型一经推出就得到业界和学界的热切关注: 一系列工作都从多角度展示了这些多模态大语言模型对视频的理解能力。人们似乎相信我们离通用人工智能 artificial general intelligence (AGI) 又迈进了一大步!

  可如果告诉你,GPT-4V 连漫画中的人物行为都会看错, 试问:元芳,你怎么看?

  我们来看看这幅迷你漫画系列:

  如果让生物界最高智能体——人类,也就是读者朋友来描述, 你大概率会说:

  那我们来看看当机器界最高智能体——也就是 GPT-4V 来看这幅迷你漫画系列的时候,它会这么描述呢?

  GPT-4V 作为公认的站在鄙视链顶端的机器智能体,居然公然睁眼说瞎话。

  还有更离谱的是,就算给 GPT-4V 实际的生活图像片段,它也会把一个人上楼梯过程中与另一个人交谈的行为也离谱的识别成两个人手持「武器」相互打斗嬉闹 (如下图所示)。

  Gemini 也不遑多让,同样的图像片段,把这个过程看成了男子艰难上楼并与妻子争吵被锁在屋里。

  这些例子都来自于马里兰大学联合北卡教堂山的研究团队的最新成果,他们推出了一个专门为 MLLM 设计的图像序列的推理基准测试——Mementos。

  就像诺兰的电影《Memento 记忆碎片》重新定义了叙事方式,Mementos 正在重塑测试人工智能的上限。

  作为一个全新的基准测试,它挑战的是人工智能对如记忆碎片般的图像序列的理解。

  论文链接:https://arxiv.org/abs/2401.10529

  项目主页: https://mementos-bench.github.io

  Mementos 是第一个专为 MLLM 设计的图像序列推理的基准测试,主要关注大模型在连续图像上的对象幻觉和行为幻觉。

  其涉及的图片类型多样,涵盖三大类别:真实世界图像,机器人图像,以及动漫图像。

  并且包含了4,761 个不同长度的多样化图像序列,每个序列都配有人类注释的主要对象及其在序列中的行为描述。

  目前数据已经开源,并且还在更新中。

  幻觉类型

  作者在论文中阐述了 MLLM 在 Mementos 中会产生的两种幻觉:对象幻觉(object hallucination)和行为幻觉(behavior hallucination)。

  顾名思义, 对象幻觉是幻想出不存在的对象(object), 而行为幻觉则是幻想出对象并没有做出的动作与行为。

  测评方式

  对于如何准确的评估 MLLM 在 Mementos 上的行为幻觉和对象幻觉,研究团队选择了将 MLLM 产生的图像描述和人标注的描述进行关键词匹配。

  为了自动化评测每一个 MLLM 的表现,作者采用了 GPT-4 辅助测试的方法来进行评估:

  1. 作者将图像序列和提示词作为输入给 MLLM,并生成与相应图像序列对应的描述;

  2. 请求 GPT-4 提取 AI 生成描述中的对象和行为关键词;

  3. 获得两个关键词列表:AI 生成的对象关键词列表和 AI 生成的行为关键词列表;

  4. 计算 AI 生成的对象关键词列表和行为关键词列表和人的标注的关键词表的召回率、准确率和 F1 指标。

  测评结果

  作者在 Mementos 上评估了 MLLMs 在序列图像推理方面的表现,对包括 GPT4V 和 Gemini 在内的九种最新的 MLLMs 进行了细致的评估。

  MLLM 被要求来描述图像序列中正在发生的事件,从而来测评 MLLM 对于连续图像的推理能力。

  结果发现,如下图所示,GPT-4V 和 Gemini 对于人物行为在漫画数据集的正确率竟然不到 20%。

  而在真实世界图像和机器人图像中,GPT-4V 和 Gemini 的表现也不尽如人意:

  关键点

  1. 在评估多模态大型语言模型时,GPT-4V 和 LLaVA-1.5 分别是在黑盒和开源 MLLMs 中表现最好的模型。GPT-4V 在理解图像序列方面的推理能力优于其他所有 MLLMs,而 LLaVA-1.5 在对象理解方面几乎与黑盒模型 Gemini 相当或甚至超越。

  2. 虽然 Video-LLaMA-2 和 Chat-UniVi 是为视频理解设计的,但它们并没有显示出比 LLaVA-1.5 更好的优势。

  3. 所有 MLLMs 在图像序列中对象推理的三个指标上表现显著优于行为推理,表明当前 MLLMs 在从连续图像中自主推断行为的能力不强。

  4. 黑盒模型在机器人领域的表现最佳,而开源模型在日常生活领域表现相对较好。这可能与训练数据的分布偏移有关。

  5. 训练数据的局限性导致开源 MLLMs 的推理能力较弱。这表明了训练数据的重要性以及它对模型性能的直接影响。

  错误原因

  作者对当前多模态大型语言模型在处理图像序列推理时失败的原因的分析,主要识别了三个错误原因:

  1. 对象与行为幻觉之间的相互作用

  研究假设,错误的对象识别会导致随后的行为识别不准确。量化分析和案例研究表明,对象幻觉会在一定程度上导致行为幻觉。例如,当 MLLM 错误地将场景识别为网球场后,可能会描述人物正在打网球,即使这种行为在图像序列中并不存在。

  2. 共现对行为幻觉的影响

  MLLM 倾向于生成在图像序列推理中常见的行为组合,这加剧了行为幻觉的问题。例如,在处理机器人领域的图像时,MLLM 可能错误地描述一个机器人手臂在“抓取把手”之后拉开抽屉,即使实际行为是“抓取抽屉的侧面”。

  3. 行为幻觉的雪球效应

  随着图像序列的进行,错误可能会逐渐累积或加剧,这称为雪球效应。在图像序列推理中,如果早期出现错误,这些错误可能会在序列中积累和放大,导致对象和行为识别的准确性下降。

  举个例子

  从上图可知,MLLM 失败原因包括对象幻觉以及对象幻觉与行为幻觉之间的相关性,以及共现行为。

  例如,在出现「网球场」的对象幻觉后,MLLM 随后展现出「拿着网球拍」的行为幻觉(对象幻觉与行为幻觉之间的相关性)以及「似乎在打网球」的共现行为。

  观察上图中的样本,可以发现 MLLM 错误地认为椅子再往后仰并且认为椅子碎掉了。

  这一现象揭示了 MLLM 对于图像序列中的静止的对象,它也会产生这个对象发生了某些动作的幻觉。

  在上图关于机械臂的图像序列展示中,机械臂伸到了把手旁边,MLLM 就错误地认为机械臂抓住了把手,证明了 MLLM 会生成在图像序列推理中常见的行为组合,从而产生幻觉。

  在上图的案例中,老夫子并没有牵着狗,MLLM 错误地认为遛狗就要牵着狗,并且「狗的撑杆跳」被识别成了「创造了喷泉」。

  大量的错误反映了 MLLM 对于漫画领域的不熟悉,在二次元动漫领域,MLLM 可能需要大幅度的优化和预训练.

  在附录中,作者通过详细展示了各主要类别中的失败案例,并进行了深入的分析。

  总结

  近年来,多模态大型语言模型在处理各种视觉-语言任务上展现出了卓越的能力。

  这些模型,如 GPT-4V 和 Gemini,能够理解和生成与图像相关的文本,极大地推动了人工智能技术的发展。

  然而,现有的 MLLM 基准测试主要集中于基于单张静态图像的推理,而对于从图像序列中推断,这对于理解我们不断变化的世界至关重要,的能力研究相对较少。

  为了解决这一挑战,研究人员提出了一种新的基准测试「Mementos」,目的是评估 MLLMs 在序列图像推理方面的能力。

  Mementos 包含了 4761 个不同长度的多样化图像序列。此外,研究团队还采用了 GPT-4 辅助方法来评估 MLLM 的推理性能。

  通过对九个最新的 MLLMs(包括 GPT-4V 和 Gemini)在 Mementos 上的仔细评估,研究发现这些模型在准确描述给定图像序列的动态信息方面存在挑战,常常导致对象及其行为的幻觉/误表达。

  量化分析和案例研究识别出三个关键因素影响 MLLMs 的序列图像推理:

  1. 对象和行为幻觉之间的相关性;

  2. 共现行为的影响;

  3. 行为幻觉的累积影响。

  这一发现对于理解和提升 MLLMs 在处理动态视觉信息方面的能力具有重要意义。Mementos 基准不仅揭示了当前 MLLMs 的局限性,也为未来的研究和改进提供了方向。

  随着人工智能技术的快速发展,MLLMs 在多模态理解领域的应用将变得更加广泛和深入。Mementos 基准测试的引入,不仅推动了这一领域的研究,也为我们提供了新的视角,去理解和改进这些先进的 AI 系统如何处理和理解我们复杂多变的世界。

  参考资料:

  https://github.com/umd-huanglab/Mementos