在5月13日的直播活动中,OpenAI对外展示了其最新的产品更新,这一系列的改变并未围绕市场上广泛流传的“搜索引擎”或“GPT-4.5/GPT-5”概念,而是聚焦在了GPT-4系列新模型GPT-4o与AI聊天机器人ChatGPT的桌面版本,旨在探索多模态应用与端侧优化。
GPT-4o中的“o”代表“Omni”,意指全能特性。这款模型在文本、推理、编码能力上达到了GPT-4 Turbo的水平,其速度是上一代AI大模型GPT-4 Turbo的两倍之多,同时成本仅为后者的一半。改进之处还包括视频与音频功能的提升。OpenAI首席执行官萨姆·阿尔特曼在博客中指出,即使是免费用户也可以享受到新版本GPT-4o带来的便利。
OpenAI与苹果的合作成果之一是推出了适用于macOS系统的桌面级应用,用户可以通过此应用在Mac电脑上与ChatGPT进行交互,进一步拓展了AI应用的边界。
GPT-4o在传统基准测试中,其文本、推理、编码能力与GPT-4 Turbo相匹敌。在接收文本、音频与图像输入时,平均响应时间为320毫秒,接近人类对话的速度,英文文本与代码能力与GPT-4 Turbo相当,非英文文本处理能力有所提升。GPT-4o提供了一种跨文本、视觉与音频的端到端模型,使得对话体验更加自然流畅。
相比GPT-4 Turbo,GPT-4o在价格上更为亲民,输入、输出每1M token费用分别为0.005美元与0.015美元,相较于GPT-4 Turbo的0.01美元与0.03美元,这一变化使得更多用户能够轻松接入。
尽管GPT-4o在性能上取得了显著进步,但OpenAI特别强调了音频模式所带来的新风险,承诺将在接下来的时间里加强对技术基础设施、发布前可用性以及安全性措施的关注。同时,他们表示在发布时,音频输出将仅限于预设声音,并严格遵守现有安全政策。
科技界对此更新反应热烈,有人认为GPT-4o接近GPT-5的性能,但也有人提出质疑,认为其可能只是GPT-5的早期版本,尚未完成最终训练。然而,多数人一致认为,OpenAI此次更新展示了AI在端侧应用的潜力,特别是语音助手领域的革新,体验显著优于Siri等现有服务。
OpenAI此次产品更新不仅展示了其在AI技术上的持续创新,同时也体现了其对端侧应用与用户群体扩大的重视。通过推出GPT-4o与ChatGPT桌面版,OpenAI正逐步实现其使命,即提供强大且易于访问的人工智能工具,推动AI技术的普及与应用。