重磅！类人速度超快语音响应！OpenAI推出新旗舰模型GPT-4o，图文音频手机AI搞定

投稿
APP
微信扫一扫获取更多

重磅！类人速度超快语音响应！OpenAI推出新旗舰模型GPT-4o，图文音频手机AI搞定

邱莉莉

2024-05-14 08:50:41

图灵汇官网

OpenAI春季发布会：GPT-4多模态升级及更多功能

北京时间周二凌晨1点，OpenAI在长时间的沉默后，终于为市场带来了期待已久的春季发布会。此次会议由公司首席技术官米拉穆拉蒂主持，主要聚焦于与ChatGPT相关的更新，特别是GPT-4的发布。GPT-4不仅在速度上较GPT-4 Turbo有所提升，而且价格更为亲民，旨在为用户提供更加高效且经济的AI体验。

GPT-4的核心升级

速度与性价比：GPT-4在保持性能的同时，实现了速度的提升和成本的降低，使其成为市场上更具竞争力的选择。
多模态应用：用户现在无需付费即可利用GPT-4的强大功能，进行数据分析、图像分析、互联网搜索以及访问应用商店等操作，极大地扩展了GPT的应用场景和潜力。
消息限制优化：对于付费用户而言，GPT-4提供了更高的消息限制，至少是免费用户的5倍，确保了更流畅和深度的交互体验。
语音体验优化：预计在接下来的一个月内，Plus用户将享受到基于GPT-4改进的语音体验，虽然当前API尚未包含语音功能，但苹果用户将率先体验到专门为macOS设计的ChatGPT桌面应用，只需轻触快捷键“拍摄”桌面即可向ChatGPT提问，Windows版本计划于年内推出。

GPT-4的多功能性展示

实时语音与情绪识别：演示中展示了GPT-4在实时语音和音频功能方面的安全性及先进性。GPT-4能够识别和回应用户的紧张情绪，并提供相应的反馈，如“Mark，你不是吸尘器”，鼓励用户放松。
数学辅导与情绪感知：通过与研究主管Mark Chen的互动，GPT-4展现了其在数学问题解决和情绪识别上的能力。它能够理解数学符号，甚至能识别出心形图案，同时还能检测到用户的情绪变化。
语言翻译与交互：GPT-4能够即时翻译不同语言之间的交流，如米拉穆拉蒂与Zoph之间的意大利语对话，展现了其跨语言沟通的能力。
视觉与音频理解：GPT-4在视觉和音频理解方面表现出色，能够根据图像和音频内容生成相应的文本描述或分析结果，这为其在多模态任务上的应用奠定了基础。

市场影响与挑战

随着GPT-4的发布，OpenAI正面临着在生成式AI市场保持领先地位的压力，同时也在寻求盈利途径。作为一家由微软支持的公司，OpenAI的估值已超过800亿美元，但其高额的基础设施建设和处理器投入为其带来了巨大的财务挑战。