原报道来自 图灵汇。根据《信息》杂志的报道,OpenAI近期已向部分用户展示了其全新多模态人工智能模型的演示版本,此模型具备语音对话与物体识别功能。内部消息指出,这一创新技术极有可能在5月13日的正式发布会上有所呈现。 文中附有一张图片,显示了模型在图像和音频处理上的优势,相较于OpenAI现有独立的图像识别和文本转语音模型,该新型模型在处理速度与准确性上表现更佳。举例而言,它能帮助客户服务人员更好地解读来电者的情绪变化,如识别讽刺语调。此外,该模型还有助于学生掌握数学知识、翻译现实世界中的标识文字等应用潜力。 然而,消息来源也提及,尽管该模型在解答特定问题时可能优于GPT-4 Turbo,但其仍存在提供错误答案的可能性,特别是在某些复杂情境下。另一张图片展示了模型在处理不同任务时的高效表现。 开发者Ananay Arora分享的一张截图揭示了OpenAI正在为ChatGPT加入拨打电话功能的迹象,同时,证据显示OpenAI正准备部署用于实时音视频通信的服务器。值得注意的是,OpenAI首席执行官Sam Altman已明确表示新产品的发布并非GPT-5大型语言模型的更新,而是其他类型的技术进步。 《信息》杂志还提到,虽然GPT-5预计在今年年底前亮相,但Altman强调OpenAI不会推出新的AI搜索引擎产品。若报道准确,OpenAI的新品发布将对即将到来的Google I/O开发者大会产生影响。谷歌同样在测试使用AI进行电话呼叫的技术,并计划发布一个名为“Pixie”的项目。Pixie是一款集成摄像头识别功能的多模态Google Assistant替代品,旨在提供如“如何前往某地点”或“如何使用某物品”等实用信息。