OpenAI发布免费新品GPT-4o：可对音频、视觉和文本实时推理，与人自然对话，功能秒杀Siri

投稿
APP
微信扫一扫获取更多

OpenAI发布免费新品GPT-4o：可对音频、视觉和文本实时推理，与人自然对话，功能秒杀Siri

AI广仁

2024-05-14 08:52:49

概览：OpenAI近期发布了旗舰产品GPT-4o，一款在音频、视觉和文本领域均能实现即时推理的全能型模型。这款模型在ChatGPT中提供了更多免费功能，其“o”代表“omni”，突显了其在多种输入输出形式上的卓越表现。GPT-4o能在232毫秒内响应音频输入，平均时间为320毫秒，这一响应速度与人类对话中的人类反应时间相近。

在此之前，用户可以通过名为Voice Mode的特性与ChatGPT进行交互，该功能由三个独立模型组成，但其延迟时间平均为2.8秒至5.4秒，限制了交互体验。Voice Mode首先将音频转录为文本，然后由GPT-3.5或GPT-4生成文本，最后再将文本转化为音频。这一流程导致大量信息流失，比如GPT-4无法捕捉到音调、多言者对话或背景噪音的细节，也无法输出笑声、歌曲或其他情感表达。

为克服这些问题，OpenAI研发了一款集成文本、视觉和音频的端到端新模型——GPT-4o。此模型采用单一神经网络处理所有输入和输出，是OpenAI首个综合处理这些模式的技术。尽管仍在探索模型的全部功能和局限性，GPT-4o的语音模式被描述为一种高级语音聊天助手，能够进行自然流畅的对话，且具备情感表达能力，如模仿兴奋、友好甚至讽刺的情绪，超越了传统的Siri等语音助手。

OpenAI首席执行官山姆·奥特曼强调，GPT-4o的即时响应能力和表达能力极大地改变了人机交流的方式，使之更加接近真实对话体验。他期待通过增加个性化选项、访问用户信息、以及执行任务的能力，创造一个激动人心的未来，让计算机能够执行前所未有的任务。

性能方面，GPT-4o在传统测试中表现出色，特别是在文本、推理和代码智能方面达到了GPT-4 Turbo级别的水平，并在多语言、音频和视觉处理上实现了新高度。对于英文文本和代码，它的性能与GPT-4 Turbo相匹敌，而在非英文文本处理上则有了显著提升。

为了确保GPT-4o的安全性，OpenAI实施了一系列策略，包括过滤训练数据、改进模型行为，以及与来自社会心理学、偏见与公平、错误信息等领域超过70位外部专家合作，共同识别新增风险，从而提高用户互动的安全性。此外，OpenAI承诺将持续减少新发现的风险，特别是在意识到音频模式存在潜在风险后，他们已限制公开文本和图像输入与输出，未来几周和几个月内，将专注于技术基础设施、安全性增强和音频输出的预设限制等方面。

目前，GPT-4o的文本和图像功能已在ChatGPT中开放免费使用，而Plus订阅用户享受到了额外的调用额度。预计在接下来的几周内，OpenAI将推出Voice Mode的新版本，整合了GPT-4o技术，为用户提供更先进的语音交互体验。