大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

　　奇月发自凹非寺量子位公众号 QbitAI

　　一群大模型玩你画我猜，人类一旁围观超起劲儿。

　　就像下面这张图展示的，由 Grok 画长颈鹿，一堆大模型根据生成内容猜答案。参赛选手包括 GPT-4o、Claude、Llama、Gemini、Grok 等。

　　其实这是最近爆火的一种新的测试基准（doge）。

　　游戏结果一定程度上能反映出大模型能力，比如这组测试一共进行了 6 局游戏，表现最好的是 Claude：它赢了 3 次！

　　GPT-4o 表现有点抽象。就它画的这龙卷风，人类也看不懂。

　　不止如此，在很多轮游戏中，其他模型都在认认真真地答题，而它的第一个回答经常是Circle？？有点子抽象。

　　所以有人就说，这游戏可以当测试基准来用啊。

　　还有人表示，AI 照这个速度发展，人类就只能当围观的瓦力了。

　　来看看更多有趣的例子

　　在比较简单的题目上，所有模型都在一两个回合中就猜对了答案，比如下面的房子：

　　还有非常简洁的草地、海洋：

　　动物主题相对复杂一些，模型们一般需要猜4-5 轮，比如大象这题：

　　游戏整体效果非常棒，网友们也是好评如潮：

　　你画我猜项目起源

　　模型画画早已不是新鲜事，但让大模型玩你画我猜？这天才想法是怎么产生的？

　　首先，不得不提到 Simon Willison 的一次测试，他让所有模型绘制自行车上有一只鹈鹕主题的图像，然后进行效果对比。

　　随后 Paul Calcraft 看到测试，他产生了一个想法：这样一个个比对太慢了，效果也不好，既然都画同一个主题，为什么不让大模型玩你画我猜的游戏呢？

　　没想到这位小哥说干就干，1 天后就发布了“你画我猜”的 0.0.1 版（这令人羡慕的执行力）。

　　游戏中，他设定回答的模型每 2 秒猜测一次，回答更快的模型会更快返回答案。

　　网友评价褒贬不一

　　不少网友表示，之前大模型在《我的世界》里面比赛盖楼，令人印象深刻，而你画我猜可能成为新的视觉 benchmark！

　　还有人热心地提出了优化建议，比如以答对互相题目的速度作为评分准则，或者加入人类成绩作为参考。

　　还有人提议将游戏变成对抗式训练，这样大模型会进步更快。

　　不过，抛去趣味性，也有网友持负面观点，表示不理解这个项目的意义。

　　有网友调侃说，这个游戏的作用就是成为未来 AI 考古时的文物，帮助它们了解自己的起源。

　　好嘛，咱们 AI 有自己的洞穴壁画（doge）。

　　不过，游戏化学习（Learning through play）其实是教育理论和心理学中的一个重要术语。

　　多位网友表示，小孩子也是通过玩游戏来提升智力、学习技能的，或许这可以成为训练大模型的新方式。

　　虽然这次只有 6 轮游戏，参与的模型也有限，但确实是一次很有趣的实践。

　　作者 Paul Calcraft 也表示会继续更新这个游戏，包括分数显示、更多的游戏主题等等，期待更多后续！

　　[1]https://twitter.com/paul_cal/status/1850262678712856764

　　[2]https://www.reddit.com/r/singularity/comments/1gcval0/llm_pictionary/

　　[3]https://x.com/simonw/status/1849854290153939171

作者：itwriter
来源：互联网
日期：2024-11-20
浏览 (4521)