北京时间3月15日凌晨,人工智能初创公司OpenAI发布了新一代语言模型GPT-4。相较于ChatGPT,GPT-4不仅能够处理图像内容,还能提供更具细节和人性化的回答。
OpenAI在声明中表示:“这是我们在深度学习领域取得的又一个重要进展。”尽管这个模型仅训练了六个月,且数据更新至2021年9月,但专家们认为,后续版本可能会带来更多惊喜。OpenAI似乎在谨慎地控制技术的发展速度,以免人们对过于先进的工具感到不安。
GPT-4最显著的变化是支持图片输入和输出,使其从单一的文本工具转变为多模态语言模型。虽然图像处理功能尚未全面开放,但OpenAI官网展示了多个示例,其中包括一个让GPT-4预测剪断气球绳子后会发生什么的情景。王资凯指出,这涉及图像理解、常识和推理,非专业人士难以解答。此外,GPT-4还展示了其在理解和处理非自然图像(如图表、考试题目截图和论文截图)上的能力,这表明它在各种考试中表现出色。例如,在一次演示中,GPT-4帮助一对虚拟夫妇完成了税务申报,证明它可以理解大量知识性文档。
GPT-4可以处理多达25000个词,是ChatGPT的八倍。因此,它的逻辑推理能力得到了显著提升。据报道,它在多项考试中表现优异,如美国律师资格考试、法学院入学考试、“美国高考”的数学部分和证据性阅读与写作部分,得分均高于88%的考生。
在官方演示中,OpenAI总裁格雷格·布罗克曼尝试让GPT-4扮演不同角色来解决问题。王昊奋认为,这种引导被称为“元指令”,即设定一个角色背景,然后指导模型完成任务。这种方法已被证明有助于生成更优质的回答。王昊奋认为,OpenAI显然注意到了这一点,并有意引导模型进入特定角色。
就在GPT-4发布前不久,谷歌推出了PaLM-E模型,拥有5620亿参数,能够结合传感器信号和文本输入,建立语言和感知之间的联系。百度也即将推出类似ChatGPT的“文心一言”。此外,由OpenAI前员工开发的Claude已开放API接口。专家们预测,随着ChatGPT的出现,自然语言处理领域的竞争将更加激烈,未来将有数十款多模态语言模型相继登场。
尽管OpenAI面临压力,但王昊奋指出,GPT-4的图像识别功能尚未完全开放,这与OpenAI一贯的做法不符。然而,考虑到GPT-4的训练数据仅更新到2021年,未来的版本可能会有更多的数据支持。王昊奋认为,OpenAI内部可能还有其他先进技术等待发布,以再次震撼业界。