重磅!类人速度超快语音响应!OpenAI推出新旗舰模型GPT-4o,图文音频手机AI搞定

图灵汇官网

OpenAI春季发布会:GPT-4多模态升级及更多功能

北京时间周二凌晨1点,OpenAI在长时间的沉默后,终于为市场带来了期待已久的春季发布会。此次会议由公司首席技术官米拉穆拉蒂主持,主要聚焦于与ChatGPT相关的更新,特别是GPT-4的发布。GPT-4不仅在速度上较GPT-4 Turbo有所提升,而且价格更为亲民,旨在为用户提供更加高效且经济的AI体验。

GPT-4的核心升级

  • 速度与性价比:GPT-4在保持性能的同时,实现了速度的提升和成本的降低,使其成为市场上更具竞争力的选择。

  • 多模态应用:用户现在无需付费即可利用GPT-4的强大功能,进行数据分析、图像分析、互联网搜索以及访问应用商店等操作,极大地扩展了GPT的应用场景和潜力。

  • 消息限制优化:对于付费用户而言,GPT-4提供了更高的消息限制,至少是免费用户的5倍,确保了更流畅和深度的交互体验。

  • 语音体验优化:预计在接下来的一个月内,Plus用户将享受到基于GPT-4改进的语音体验,虽然当前API尚未包含语音功能,但苹果用户将率先体验到专门为macOS设计的ChatGPT桌面应用,只需轻触快捷键“拍摄”桌面即可向ChatGPT提问,Windows版本计划于年内推出。

GPT-4的多功能性展示

  • 实时语音与情绪识别:演示中展示了GPT-4在实时语音和音频功能方面的安全性及先进性。GPT-4能够识别和回应用户的紧张情绪,并提供相应的反馈,如“Mark,你不是吸尘器”,鼓励用户放松。

  • 数学辅导与情绪感知:通过与研究主管Mark Chen的互动,GPT-4展现了其在数学问题解决和情绪识别上的能力。它能够理解数学符号,甚至能识别出心形图案,同时还能检测到用户的情绪变化。

  • 语言翻译与交互:GPT-4能够即时翻译不同语言之间的交流,如米拉穆拉蒂与Zoph之间的意大利语对话,展现了其跨语言沟通的能力。

  • 视觉与音频理解:GPT-4在视觉和音频理解方面表现出色,能够根据图像和音频内容生成相应的文本描述或分析结果,这为其在多模态任务上的应用奠定了基础。

市场影响与挑战

随着GPT-4的发布,OpenAI正面临着在生成式AI市场保持领先地位的压力,同时也在寻求盈利途径。作为一家由微软支持的公司,OpenAI的估值已超过800亿美元,但其高额的基础设施建设和处理器投入为其带来了巨大的财务挑战。

结论

OpenAI的春季发布会标志着公司在AI技术领域的重要进展,尤其是GPT-4的发布,不仅提升了AI助手的效率和用户体验,还拓展了其在多模态任务上的应用可能性。随着更多功能的逐步开放和优化,OpenAI有望进一步巩固其在AI市场的领导地位,并持续推动人工智能技术的发展。

本文来源: 互联网 文章作者: 邱莉莉
    下一篇

导读:编辑部 整理自 AIGC峰会 量子位 | 公众号 QbitAI AIGC果然要将所有软件重塑一遍? 中国AIGC产业峰会上,金山办公副总裁、研发中台事业部总经理姚冬分享了金山办公拥抱AI的思考与