ChatGPT图像识别能力解锁和深度分析

瑞为技术

2023-02-14 20:58:10

【新智元解读】实际上，ChatGPT能够识别图片！您只需提供图片的网址，并确保该图片可以无限制地被OpenAI的服务器访问。

尽管ChatGPT网页上并没有上传图片的功能，但其实它可以识别图片。您需要输入图片的网址，并确保图片可以无障碍地被美国服务器访问。目前来看，它能够成功读取维基百科（Wiki）和美国有线电视新闻网（CNN）上的图片。

那么，ChatGPT能识别出什么样的内容呢？

普通新闻图片

ChatGPT虽然未能准确识别出具体的装备型号，但成功描绘了一个贴近现实的场景氛围。它对图像构图的视角有着很强的理解力。

人物图片

对于人物图片，ChatGPT有时无法识别出人脸或画面中的文字，但它能大致描述画面内容，尽管有些许偏差。它对场景的猜测接近人类的感觉，例如它认为马克龙是一个有礼貌的人。

特定历史图片

在处理特定历史图片时，如越战美军搜查敌人的照片，ChatGPT能详细描述图片中的细节。虽然它并未对特定物体和人脸进行优化，但其描述非常生动。此外，它还能理解一些抽象的概念，如人的工作态度。值得注意的是，它将执行任务的人识别为警察，这表明其结论主要来源于图片本身而非文字信息。

全球著名图片

对于著名的艺术作品，ChatGPT不仅能识别出人物和事件，还能进行许多抽象的描述，例如动感等。

人机互动

ChatGPT对图片的理解具有互动性。当提供更多的信息时，它能更好地理解图片内容，并描述画面的情感。这意味着，ChatGPT对图片的理解不是一次性输出，而是可以通过多次交互来逐步完善。

地标图片

ChatGPT成功识别了伦敦的地标建筑，并准确辨认了红场。然而，对于一些不存在的地标，它会捏造一个不存在的地名。

视频内容识别

ChatGPT承认自己可以识别视频内容，但在实际操作中，特别是在YouTube和CNN等网站上，其识别结果可能存在错误。这是因为相关功能尚未完全开放。即便如此，它甚至能注意到视频播放进度的问题。

总之，随着技术的进步，我们应继续关注ChatGPT的发展。

深度分析识别图像 ChatGPT 能力解锁和

本文来源：图灵汇文章作者：瑞为技术

大规模食品图像识别：T-PAMI 2023论文解读