概览:OpenAI近期发布了旗舰产品GPT-4o,一款在音频、视觉和文本领域均能实现即时推理的全能型模型。这款模型在ChatGPT中提供了更多免费功能,其“o”代表“omni”,突显了其在多种输入输出形式上的卓越表现。GPT-4o能在232毫秒内响应音频输入,平均时间为320毫秒,这一响应速度与人类对话中的人类反应时间相近。
在此之前,用户可以通过名为Voice Mode的特性与ChatGPT进行交互,该功能由三个独立模型组成,但其延迟时间平均为2.8秒至5.4秒,限制了交互体验。Voice Mode首先将音频转录为文本,然后由GPT-3.5或GPT-4生成文本,最后再将文本转化为音频。这一流程导致大量信息流失,比如GPT-4无法捕捉到音调、多言者对话或背景噪音的细节,也无法输出笑声、歌曲或其他情感表达。
为克服这些问题,OpenAI研发了一款集成文本、视觉和音频的端到端新模型——GPT-4o。此模型采用单一神经网络处理所有输入和输出,是OpenAI首个综合处理这些模式的技术。尽管仍在探索模型的全部功能和局限性,GPT-4o的语音模式被描述为一种高级语音聊天助手,能够进行自然流畅的对话,且具备情感表达能力,如模仿兴奋、友好甚至讽刺的情绪,超越了传统的Siri等语音助手。
OpenAI首席执行官山姆·奥特曼强调,GPT-4o的即时响应能力和表达能力极大地改变了人机交流的方式,使之更加接近真实对话体验。他期待通过增加个性化选项、访问用户信息、以及执行任务的能力,创造一个激动人心的未来,让计算机能够执行前所未有的任务。
性能方面,GPT-4o在传统测试中表现出色,特别是在文本、推理和代码智能方面达到了GPT-4 Turbo级别的水平,并在多语言、音频和视觉处理上实现了新高度。对于英文文本和代码,它的性能与GPT-4 Turbo相匹敌,而在非英文文本处理上则有了显著提升。
为了确保GPT-4o的安全性,OpenAI实施了一系列策略,包括过滤训练数据、改进模型行为,以及与来自社会心理学、偏见与公平、错误信息等领域超过70位外部专家合作,共同识别新增风险,从而提高用户互动的安全性。此外,OpenAI承诺将持续减少新发现的风险,特别是在意识到音频模式存在潜在风险后,他们已限制公开文本和图像输入与输出,未来几周和几个月内,将专注于技术基础设施、安全性增强和音频输出的预设限制等方面。
目前,GPT-4o的文本和图像功能已在ChatGPT中开放免费使用,而Plus订阅用户享受到了额外的调用额度。预计在接下来的几周内,OpenAI将推出Voice Mode的新版本,整合了GPT-4o技术,为用户提供更先进的语音交互体验。