ChatGPT图像识别能力解锁和深度分析

图灵汇官网

【新智元解读】实际上,ChatGPT能够识别图片!您只需提供图片的网址,并确保该图片可以无限制地被OpenAI的服务器访问。

尽管ChatGPT网页上并没有上传图片的功能,但其实它可以识别图片。您需要输入图片的网址,并确保图片可以无障碍地被美国服务器访问。目前来看,它能够成功读取维基百科(Wiki)和美国有线电视新闻网(CNN)上的图片。

那么,ChatGPT能识别出什么样的内容呢?

普通新闻图片

ChatGPT虽然未能准确识别出具体的装备型号,但成功描绘了一个贴近现实的场景氛围。它对图像构图的视角有着很强的理解力。

人物图片

对于人物图片,ChatGPT有时无法识别出人脸或画面中的文字,但它能大致描述画面内容,尽管有些许偏差。它对场景的猜测接近人类的感觉,例如它认为马克龙是一个有礼貌的人。

特定历史图片

在处理特定历史图片时,如越战美军搜查敌人的照片,ChatGPT能详细描述图片中的细节。虽然它并未对特定物体和人脸进行优化,但其描述非常生动。此外,它还能理解一些抽象的概念,如人的工作态度。值得注意的是,它将执行任务的人识别为警察,这表明其结论主要来源于图片本身而非文字信息。

全球著名图片

对于著名的艺术作品,ChatGPT不仅能识别出人物和事件,还能进行许多抽象的描述,例如动感等。

人机互动

ChatGPT对图片的理解具有互动性。当提供更多的信息时,它能更好地理解图片内容,并描述画面的情感。这意味着,ChatGPT对图片的理解不是一次性输出,而是可以通过多次交互来逐步完善。

地标图片

ChatGPT成功识别了伦敦的地标建筑,并准确辨认了红场。然而,对于一些不存在的地标,它会捏造一个不存在的地名。

视频内容识别

ChatGPT承认自己可以识别视频内容,但在实际操作中,特别是在YouTube和CNN等网站上,其识别结果可能存在错误。这是因为相关功能尚未完全开放。即便如此,它甚至能注意到视频播放进度的问题。

总之,随着技术的进步,我们应继续关注ChatGPT的发展。

本文来源: 图灵汇 文章作者: 瑞为技术