ChatGPT图像识别能力解锁和深度分析

　　新智元报道

　　来源：老罗不说

　　作者：罗予晨

　　编辑：好困

　　其实，ChatGPT 是可以识别图片的！你只需要输入图片网址，并确保图片能不受限制地被 OpenAI 的服务器读取到。

　　因为 ChatGPT 网页上没有上传图片按钮，所以一般人都不知道它能识别图片。但是其实它是可以识别图片的，你需要输入图片网址，确保图片不需要登录或者其他限制条件就能被美国服务器读取到。

　　目前看它读取 Wiki、CNN 图片都没有问题。

　　那么它能识别出什么内容？

　　普通新闻图片

　　ChatGPT 没有识别出具体的装备型号，但是描述了一个非常贴近的场景氛围。对构图的视角有较强的理解力。

　　人物图片

　　马克龙这张，没有识别出人脸，也没有识别出画面的文字。但是可以基本描述出画面内容，虽然有一些错误。重点是它对场景的猜测，和接近人的感觉，比如它说马克龙像是很有礼貌的人。

　　上面两张是识别精度一般的，这里还有画面特征比较强，识别精度较高的。

　　特定历史图片

　　这幅越战美军搜查敌人的照片。被 ChatGPT 详细的描述了细节，这幅图的场景，人物和细节的信息量，会比上面的两张更大（ChatGPT 看起来没有对特定的物体和人脸做针对性的优化），所以描述非常生动，虽然有少许错误。而且对人的工作态度这样抽象的信息也有理解。

　　值得注意的是这里提到警察。这图片来自 Wiki 越战词条。如果 ChatGPT 是通过读取连接的文字信息来获取图片信息的，那么就不会认为那些执行任务的人是警察。因此可以认为它的结论完全来自于图片信息。

　　全球著名图片

　　这是一幅名画，这个时候 ChatGPT 是能完整的识别人物和事件的。同时仍然有很多抽象的描述，比如动感等。

　　针对图片的人机互动

　　这幅画，一开始 ChatGPT 没有看懂。给它输入更多信息之后，它能理解这幅画，且描述了画面的感情。所以 ChatGPT 对图片的理解是能够交互的，而不是一次性的输出。

　　地标图片

　　伦敦地标识别成功。

　　红场识别准确

　　捏造了一个所谓地标，查了没有这样的地标。

　　视频内容识别

　　ChatGPT 是承认自己可以识别视频的，但是在油管、CNN 等网站的内容识别中，输出有错误。这是业务没有开放造成的，它甚至知道我的问题是看快进的进度。

　　如果不多问一句，都不知道它是不是真的看了视频。

　　继续保持对 ChatCPT 的关注。

作者：itwriter
来源：互联网
日期：2023-02-13
浏览 (5097)