OpenAI新王炸：ChatGPT语音助手可以“看”人说话了，能实时视频对话

投稿
APP
微信扫一扫获取更多

OpenAI新王炸：ChatGPT语音助手可以“看”人说话了，能实时视频对话

e公司

2024-12-13 11:59:43

图灵汇官网

OpenAI 推出全新高级语音模式，实现实时视频对话

近日，OpenAI 发布了一项令人瞩目的新功能，将 ChatGPT 的高级语音模式 Advanced Voice 升级至全新的水平。经过近七个月的研发与测试，这一功能终于在 12 月 12 日正式亮相。

新功能亮点

此次更新主要集中在移动端应用程序 App 上，引入了视频对话和屏幕共享功能。这一升级背后的核心技术是由 OpenAI 的多模态模型 GPT-4o 提供支持的 Advanced Voice 模式。

在演示中，用户只需点击 ChatGPT 聊天栏中的语音图标，再点击视频图标即可启动视频对话。若想共享屏幕，用户需打开一个带有三个选项的菜单，并选择“共享屏幕”。这一功能不仅增强了互动性，还提升了用户体验。

功能演示

OpenAI 的研究人员展示了多个应用场景，例如，通过视频对话，GPT 能够识别并回应关于现场人员装扮的问题。此外，GPT 还能够处理和分析用户提供的短信内容及图片，并提供相应的建议。

更为有趣的是，用户还可以通过 Advanced Voice 的新功能让 GPT 帮助校对文本或学习新技能。例如，用户可以向 GPT 展示制作手冲咖啡所需的工具，并询问如何使用这些工具。GPT 将会评价操作过程，并给出建议。

使用范围与限制

大多数 ChatGPT Plus 和 Pro 套餐的订阅用户，以及所有 Team 用户将在未来几天内通过 App 访问这一新功能。预计欧盟、瑞士、冰岛、挪威和列支敦士登的用户也将很快能用上这一功能。ChatGPT 的企业版和教育版则将于明年 1 月上线。

值得一提的是，为了增添节日氛围，OpenAI 还特别推出了限时的“圣诞老人声音”功能，有效期将持续到明年 1 月初。这一独特的语音选项可通过 ChatGPT 中的雪花图标访问。

发展历程

回顾历史，OpenAI 曾在今年 5 月推出新旗舰模型 GPT-4o 时展示了语音模式 Voice Mode。然而，这一功能的落地过程并非一帆风顺。最初计划于 6 月末向一小部分 Plus 用户推出，但随后因安全性和可靠性考虑而推迟。直到 7 月末，部分付费 Plus 用户才得以体验到这一功能，但当时的版本并未包含所有展示过的功能，如计算机视觉功能等。

此次新功能的推出标志着 ChatGPT 在语音和视频交互方面迈出了重要的一步。