新智元报道
编辑:定慧英智
研究发现,LLM 在创作梗图时表现出惊人的幽默感与创造力,甚至超越了人类创作者!AI 创作的梗图评分更高,但最具灵魂的作品仍来自人类。
AI 似乎比人类更懂得「如何幽默」,模因(Meme)图灵测试已经被 LLM 通过!
来自慕尼黑和瑞典的研究者发现:LLM 能够生成「被人类评判为」比普通人创作的模因更搞笑的作品!
论文链接:https://arxiv.org/abs/2501.11433
研究者在图中展示了「模因(Meme)梗图」的效果,从幽默性(Humor)、创意性(Creativity)和分享性(Shareability)三个方面进行比赛。
有趣的是,完全由 AI 创作的梗图在所有领域的平均表现都优于仅由人类或人类-AI 协作创作的梗。
这似乎表明 AI 已经通过了模因图灵测试。
幽默的复杂性:AI 真的可以理解人类的幽默吗?
「模因 Meme」一词最早可以追溯到 Richard Dawkin 在 1976 年出版的《自私的基因》,随之演化成为媒介传播过程中网络梗图、搞笑段落和幽默视频的代名词。
模因的独特特征,包括其视觉和文本性质、对文化背景的依赖以及通常简洁而有力的幽默表达,给生成式 AI 带来了与「纯文本笑话」生成不同的独特挑战。
这项研究的核心目的,是探究 LLM 和人类在创作梗图时的协同创造力。
为啥选梗图呢?因为梗图把视觉和文字巧妙融合,既依赖文化背景,又充满创意和幽默,特别适合用来研究人类和 AI 在创作上的互动。
Gemini 根据论文生成的梗图
网络流行的德雷克拒绝/接受梗被 AI 理解
人类之间的合作,一直被认为能激发创造力。大家一起头脑风暴,不同的观点相互碰撞,往往能诞生出更棒的创意。
对于如何评估梗图这种创意作品,一般会从创造力、幽默感和分享度这几个方面入手。
梗图创作大 PK
研究团队精心设计了一项用户研究,把参与者分成了三组。
第一组是纯人类组,他们在没有任何 AI 帮助的情况下创作梗图;第二组是人类-AI 协作组,参与者可以和 LLM 互动,借助它的力量来生成想法;第三组是 AI 组,梗图完全由模型自主生成。
具体的创作任务分为三个步骤。
首先是创意生成,研究人员会给他们展示一张流行梗图的背景图片,然后让他们围绕工作、食物、运动这三个主题里的一个,在五分钟内尽可能多地想出梗图的文字说明。
对于人类-AI 协作组,参与者还能通过聊天界面向 LLM 寻求帮助。
接着是收藏选择,参与者要从自己想出的所有想法里,挑出最喜欢的三个。
最后是图片创作阶段,他们把选好的想法添加到梗图模板上,还能对文字的位置、大小进行调整。
创作的时候,每位参与者要根据不同的图片和主题组合,完成三个梗图的创作,整个过程大概 40 分钟,完成后还能得到 15 美元的报酬。
之后,研究人员从人类组和协作组生成的梗图里,分别随机挑选 150 张,再让 LLM 针对同样的图片和主题,生成 150 张 AI 创作的梗图。
然后,找了另一组新的参与者,让他们从幽默、创意、分享度这三个方面,对这些梗图进行打分评估。
为了让 LLM 在研究里发挥作用,研究人员给它设定了不同的任务。
在人类-AI 协作组的创意生成阶段,LLM 就像个「创意助手」,参与者可以自由地向它提问。
为了让 LLM 给出更符合要求的回答,研究人员给它设置了系统提示,告诉它要帮助用户生成梗图创意,交互语气要友好礼貌,一次最多给出三个想法。
在生成纯 AI 梗图的时候,研究人员会把图片信息发给 LLM,让它针对每个图片-主题组合生成 20 个梗图文字说明。
研究的用户界面是用 React 搭建的,数据收集和与 OpenAI 的 GPT-4o API 的交互通过 NodeJS 服务器,保证了数据的准确性和完整性。
梗图创作和评估都是在线上完成的,创作阶段用专门搭建的梗图创作界面,评估阶段则借助商业调查平台。
梗图创作阶段,研究人员通过线上平台 Prolific 招募了 124 人,其中 26 人没完成任务。
最后的参与者来自 30 个不同的国家,英语水平都不错,而且之前至少用过一次 LLM 的界面。其中 63 人是男性,35 人是女性,平均年龄 28.8 岁。
在梗图评估阶段,又招募了 100 人,同样要求英语好,但不要求有使用 LLM 的经验。最后有 98 人完成了任务,这组人男女比例差不多,平均年龄 32.6 岁,来自 29 个不同国家。
研究结果
现在,激动人心的研究结果来啦!
先看看梗图创作阶段,在创意生成方面,使用 LLM 的参与者明显比纯人类组想出了更多的创意。纯人类组平均每人想出 6.1 个创意,而有 LLM 帮助的参与者在这方面优势明显。
在 LLM 的帮助下,参与者生成了更多创意,而且他们并不觉得创作过程更累。
从 NASA-TLX 的评估数据可以看到,两组在整体工作量上没有太大差别,只是在「努力程度」这一项上,AI 协作组的参与者打分更低。
LLM 确实能提高创作效率,让人们在创作梗图时更轻松地产生更多创意,但它可能会让创作者对作品的「主人翁」 感觉变弱。
LLM 主要在创意生成阶段发挥作用,而后续的筛选和图片制作环节还是靠参与者自己完成。
梗图评分
从梗图的评分结果来看,人机协作组虽然在创意数量上占优,但在质量上并没有比纯人类创作的梗图更好。
在幽默程度、创造力和分享度这三个维度上,两组的评分没有显著差异。这说明在梗图创作中,单纯增加数量,并不一定能提升作品的质量。
让人意外的是,纯 AI 生成的梗图在幽默、创意和分享度这三个方面的整体评分都比人类组和人类-AI 协作组要高。
这是因为 LLM 在训练过程中,接触了大量的素材,能够精准地把握大众的喜好。
但当我们把目光聚焦在那些表现最出色的梗图时,在最有趣的梗图中,大部分是由人类创作的;而在创造力和分享度方面表现突出的梗图里,人机协作的成果占了不少。
这充分体现了人类的创造力在某些方面是无可替代的。人类能够将个人独特的经历、丰富的文化内涵融入作品。
LLM 在梗图创作中的优势显而易见。它就像一个不知疲倦的创意助手,能在短时间内提供大量的创意,帮助创作者突破思维局限,提高创作效率。
而且,凭借其对海量数据的学习能力,它能精准地抓住大众的幽默喜好,创作出有吸引力的内容。
但它也并非完美无缺。LLM 生成的内容往往缺乏独特的个性和深度,可能无法真正理解某些特定文化背景下的微妙幽默。
人类的创造力是梗图创作中不可或缺的关键因素。
例如,在创作一个关于职场的梗图时,人类创作者可以结合自己在职场中的真实故事和感受,对 LLM 生成的创意进行调整,让梗图更具感染力和真实感。
参考资料: