消息称 OpenAI 将推出多模态人工智能数字助理

投稿
APP
微信扫一扫获取更多

消息称 OpenAI 将推出多模态人工智能数字助理

wubin123

2024-05-13 22:33:00

原报道来自图灵汇。根据《信息》杂志的报道，OpenAI近期已向部分用户展示了其全新多模态人工智能模型的演示版本，此模型具备语音对话与物体识别功能。内部消息指出，这一创新技术极有可能在5月13日的正式发布会上有所呈现。文中附有一张图片，显示了模型在图像和音频处理上的优势，相较于OpenAI现有独立的图像识别和文本转语音模型，该新型模型在处理速度与准确性上表现更佳。举例而言，它能帮助客户服务人员更好地解读来电者的情绪变化，如识别讽刺语调。此外，该模型还有助于学生掌握数学知识、翻译现实世界中的标识文字等应用潜力。然而，消息来源也提及，尽管该模型在解答特定问题时可能优于GPT-4 Turbo，但其仍存在提供错误答案的可能性，特别是在某些复杂情境下。另一张图片展示了模型在处理不同任务时的高效表现。开发者Ananay Arora分享的一张截图揭示了OpenAI正在为ChatGPT加入拨打电话功能的迹象，同时，证据显示OpenAI正准备部署用于实时音视频通信的服务器。值得注意的是，OpenAI首席执行官Sam Altman已明确表示新产品的发布并非GPT-5大型语言模型的更新，而是其他类型的技术进步。《信息》杂志还提到，虽然GPT-5预计在今年年底前亮相，但Altman强调OpenAI不会推出新的AI搜索引擎产品。若报道准确，OpenAI的新品发布将对即将到来的Google I/O开发者大会产生影响。谷歌同样在测试使用AI进行电话呼叫的技术，并计划发布一个名为“Pixie”的项目。Pixie是一款集成摄像头识别功能的多模态Google Assistant替代品，旨在提供如“如何前往某地点”或“如何使用某物品”等实用信息。