OpenAI新王炸:ChatGPT语音助手可以“看”人说话了,能实时视频对话

图灵汇官网

OpenAI 推出全新高级语音模式,实现实时视频对话

近日,OpenAI 发布了一项令人瞩目的新功能,将 ChatGPT 的高级语音模式 Advanced Voice 升级至全新的水平。经过近七个月的研发与测试,这一功能终于在 12 月 12 日正式亮相。

新功能亮点

此次更新主要集中在移动端应用程序 App 上,引入了视频对话和屏幕共享功能。这一升级背后的核心技术是由 OpenAI 的多模态模型 GPT-4o 提供支持的 Advanced Voice 模式。

在演示中,用户只需点击 ChatGPT 聊天栏中的语音图标,再点击视频图标即可启动视频对话。若想共享屏幕,用户需打开一个带有三个选项的菜单,并选择“共享屏幕”。这一功能不仅增强了互动性,还提升了用户体验。

功能演示

OpenAI 的研究人员展示了多个应用场景,例如,通过视频对话,GPT 能够识别并回应关于现场人员装扮的问题。此外,GPT 还能够处理和分析用户提供的短信内容及图片,并提供相应的建议。

更为有趣的是,用户还可以通过 Advanced Voice 的新功能让 GPT 帮助校对文本或学习新技能。例如,用户可以向 GPT 展示制作手冲咖啡所需的工具,并询问如何使用这些工具。GPT 将会评价操作过程,并给出建议。

使用范围与限制

大多数 ChatGPT Plus 和 Pro 套餐的订阅用户,以及所有 Team 用户将在未来几天内通过 App 访问这一新功能。预计欧盟、瑞士、冰岛、挪威和列支敦士登的用户也将很快能用上这一功能。ChatGPT 的企业版和教育版则将于明年 1 月上线。

值得一提的是,为了增添节日氛围,OpenAI 还特别推出了限时的“圣诞老人声音”功能,有效期将持续到明年 1 月初。这一独特的语音选项可通过 ChatGPT 中的雪花图标访问。

发展历程

回顾历史,OpenAI 曾在今年 5 月推出新旗舰模型 GPT-4o 时展示了语音模式 Voice Mode。然而,这一功能的落地过程并非一帆风顺。最初计划于 6 月末向一小部分 Plus 用户推出,但随后因安全性和可靠性考虑而推迟。直到 7 月末,部分付费 Plus 用户才得以体验到这一功能,但当时的版本并未包含所有展示过的功能,如计算机视觉功能等。

此次新功能的推出标志着 ChatGPT 在语音和视频交互方面迈出了重要的一步。

本文来源: 互联网 文章作者: e公司
    下一篇

导读:继昨日 ChatGPT 全面登陆苹果全家桶之后,OpenAI 又带来了重磅更新。今天,ChatGPT 推出了视频通话和屏幕共享功能以及一款圣诞老人限定语音「Santa Mode」。也就是说,现在