AI美女全军覆没!赛博照妖镜下集体变“鬼”,AI代码拆台AI生图

  明敏克雷西发自凹非寺

  量子位公众号 QbitAI

  赛博照妖镜下,AI 美女全变鬼。

  来看它的牙。

  把图像饱和度拉满,AI 人像的牙齿就会变得非常诡异,边界模糊不清。

  整体图片的颜色也正常,麦克风部分更是奇怪。

  对比真实人类照片,则应该是这样的。

  牙齿是清晰的,图片色块都是均匀一致的。

  这个工具已经开放,人人都能拿着照片去试试。

  AI 生成视频中的某一帧,也难逃此大法。

  不漏牙的照片也会暴露问题。

  不过 BTW,这个工具出自 Claude 之手。用 AI 破解 AI,奇妙的闭环。

  有一说一,最近 AI 人像太逼真又引发了不小讨论,比如一组大火的“TED 演讲者视频”,其实没有一个是真人。

  不只是人脸难以区分,就连之前 AI 的短板——写字,现在都能完全以假乱真。

  更关键的是,生成这样的 AI 人像,成本也不高。低至 5 分钟、每 20 秒 1.5 美元(人民币 10 块左右)的价格即可搞定。

  这下网友们都坐不住了,纷纷搞起 AI 打假大赛。

  近 5 千人来讨论,这两张图到底哪张是真人。

  给出的理由五花八门。有人发现文字、花纹细节很抽象,有人则觉得人物眼神很空洞……

  最先进的 AI 们生成人像有啥规律,逐渐被大家摸索出来了。

  不看细节已很难分辨

  汇总来看,调整饱和度或许是目前最快速辨别的方法。

  AI 群像照在这种方法下暴露得更加彻底。

  不过它存在一个问题。如果图像用 JPEG 算法压缩过后,该方法可能失效。

  比如确定这张照片是真人照片。

  但是由于画质压缩以及光线等问题,人物牙齿也有点模糊。

  所以网友们还列出了更多分辨人像是否是 AI 合成的方法。

  第一种方法,简单说就是依靠人类的知识判断。

  由于 AI 学习图像的方式和人类并不一致,难免无法 100% 掌握人类视角下的视觉信息。

  造成的结果就是,AI 生成的图片常常包含与现实世界不符之处,这就为图像的鉴别提供了着手之处。

  用开头的这张图片作为例子。

  从整体上看,人物的皮肤过于光滑,看不到任何的毛孔,这种过于完美的特征反而增加了不真实感。

  当然这种“不真实感”并不完全等同于“造假”,毕竟经过磨皮处理的图片同样看不到毛孔。

  但这也并非唯一的判断因素,AI 在图片中留下的与常识的出入也未必只有一处。

  实际上,这张图只要稍微看以下细节,就能看到一个比较明显的特征——胸牌上方挂钩奇特的连接方式

  还有在高饱和度模式下露出破绽的麦克风,放大之后直接用肉眼也能看出端倪。

  更为隐蔽的是,头发末端有几根毛发的位置很不合理,但这样的特征,恐怕要拥有列文虎克级别的视力才能看到了。

  不过,随着生成技术的进步,能够找到的特征越来越隐蔽,也是一个无法避免的趋势。

  还有一种方法是看文字,虽然 AI 在字型的刻画上正逐渐克服“鬼画符”的问题,但正确地渲染出有正确实际含义的文字还存在一些困难。

  比如有网友发现,照片中的人佩戴的胸牌上,Google 标志的下方最后一行字中的两个字母是“CA”,表示美国加州,前面的一大长串应该是城市名。

  但实际上,加州根本没有名字如此之长的城市。

  除了这些物体本身的细节,还有光线、阴影等信息也可以用来判断真伪。

  这张图片是从一段视频当中提取的,在它所在的视频当中还有这样的一帧。

  在话筒右侧的位置,有一片十分诡异的阴影,这片阴影对应的是人物的一只手,显然 AI 在这里处理得有所欠缺。

  说到视频,由于涉及前后内容一致性,AI 倒是比在静态图像中更容易露出鸡脚马脚。

  还有一些特征不算“常识错误”,但也体现出了 AI 在生成图像时的一些偏好。

  比如这四张图,都是 AI 合成的“普通人”(average people),有没有发现什么共同之处?

  有网友表示,这四张图里的人,没有一个是笑脸,这点似乎就体现了 AI 生图的某种特征。

  针对这几张图而言确实如此,但这样的判断方式很难形成系统,毕竟不同的 AI 绘图工具,特点也都不尽相同。

  总之,为了应对逐渐进步的 AI,一方面可以加大“列文虎克”的力度,一方面还可以引入像拉高饱和度这样的图像处理技术。

  但如果这样的“量变”积累得越来越多,肉眼判断也会越来越困难,图像饱和度可能也有被 AI 攻破的一天。

  所以人们也在转变思路,想到了“以模制模”的方法,用 AI 生成的图片训练检测模型,从图像中分析更多特征。

  比如 AI 生成的图像在频谱、噪声分布等方面存在许多特点,这些特点依靠肉眼无法捕捉,但 AI 却能看得很清楚。

  当然,也不排除检测方法落后、跟不上模型变化,甚至模型开发者专门进行对抗性开发的可能。

  比如前文一直在讨论的这张图片,某 AI 检测工具认为它是 AI 合成的概率只有2%。

  但 AI 造假和 AI 检测之间的博弈过程,本身就是一场“猫鼠游戏”。

  所以在检测之外,可能还需要模型的开发者也负起一些责任,例如给 AI 生成的图片打上隐形水印,让 AI 造假无处遁形。

  AI 魔高一尺

  值得一提的是,如上引发恐慌的 AI 人像,不少都是由最近爆火的Flux生成/参与制作。

  甚至大家已经开始默认,效果太好难以分辨的,就是 Flux 做的。

  它由 Stable Diffusion 原班人马打造,发布才 10 天就在网络上掀起轩然大波。

  这些精美的假 TED 演讲照片,都是出自它手。

  还有人用 Flux 和 Gen-3 一起做出了精美的护肤品广告。

  以及多角度的各种合成效果。

  它很好解决了 AI 画手、AI 生成图片中文字等问题。

  这直接导致现在人类区分 AI 画图,不能再直接看手和文字了,只能盯着蛛丝马迹猜。

  Flux 应该是在手部、文字等指标上加强了训练。

  这也意味着,如果当下的 AI 继续在纹理细节、色彩等方面下功夫训练,等到下一代 AI 画图模型出来时,人类的辨认方法可能又要失效了……

  而且 Flux 还是开源、笔记本电脑上可运行的。不少人现在已经在 Forget Midjourney 了。

  从 Stable Diffusion 到 Flux,用了 2 年。

  从“威尔史密斯吃面条”到“Tedx 演讲者”,用了 1 年。

  真不知道以后为了分辨 AI 生成,人类得想出哪些歪招了……

  参考链接:

  [1]https://x.com/ChuckBaggett/status/1822686462044754160

  [2]https://www.reddit.com/r/artificial/comments/1epjlbl/average_looking_people/

  [3]https://www.reddit.com/r/ChatGPT/comments/1epeshq/these_are_all_ai/

  [4]https://x.com/levelsio/status/1822751995012268062