中国移动联合研发 2D 数字人说话驱动系统:可生成 7 种情绪,用于 5G 新通话、AI 客服等

图灵汇官网

中国移动近日宣布,联合南京大学团队成功研发了一套高保真2D数字人说话驱动系统。作为全球用户数量最多的通信运营商之一,中国移动在客户服务方面的运营成本一直居高不下。尽管智能语音客服已经普及,但仍然无法完全替代人工客服所提供的个性化服务体验。

为了应对这一挑战,中国移动九天视觉团队与南京大学的邰颖团队合作,开发出一套高保真2D数字人说话驱动系统。该系统致力于提供表情自然、唇音同步且头部姿态协调的数字人播报对话服务,适用于智能客服、教育培训、广告营销等多个领域。

该系统能够根据给定目标人物的照片或视频以及任意一段音频,生成与音频同步的目标人物说话视频流。生成的视频不仅需要高度逼真,表情和姿态也需要自然流畅,同时还要保证实时性,以便与语言大模型和音频合成能力无缝对接,创建出一个逼真的数字替身。

该系统在三个关键技术领域进行了创新:

首先,它实现了高性能的实时播报。相较于传统方法,这套系统在实时生成口型方面达到了业界领先水平,支持中英文两种语言的数字人口型驱动,并且能够在保持高质量的前提下,实现每帧30毫秒的实时性能。

其次,系统采用了两阶段学习框架,将数字人说话驱动分解为从音频到口型参数,再到生成人像的过程,从而简化了学习过程,提高了生成效果。

最后,该系统引入了情绪引导学习模块,支持正常、微笑、惊讶、愤怒、恐惧、悲伤等多种情绪的控制,使生成的数字人具备丰富的情感表达能力。

此外,这套系统的数字人生成技术实现了端到端的二阶段实时生成性能,支持512x512像素的人脸区域生成,并且具备多种情绪控制功能。在评测集VoxCeleb指标中,其口型准确度达到4.3,自然度评分达到11.1。

中国移动表示,这一研究成果有着广泛的应用前景,不仅降低了创作门槛,提升了生成人物的视觉质量,还为5G新通话和“和留言”等品牌的业务拓展提供了强有力的支持。

本文来源: 图灵汇 文章作者: 陶畅
    下一篇

IT之家 12 月 12 日消息,据人民邮电报报道,日前,秦山核电 5G 专网正式上线,这是国内规模最大的电力 5G 专网,站内开通超过 3900 个 5G 皮基站,5G 专网覆盖秦山核电 9 台机组