中国移动联合研发 2D 数字人说话驱动系统：可生成 7 种情绪，用于 5G 新通话、AI 客服等

陶畅

2024-12-09 13:04:04

中国移动近日宣布，联合南京大学团队成功研发了一套高保真2D数字人说话驱动系统。作为全球用户数量最多的通信运营商之一，中国移动在客户服务方面的运营成本一直居高不下。尽管智能语音客服已经普及，但仍然无法完全替代人工客服所提供的个性化服务体验。

为了应对这一挑战，中国移动九天视觉团队与南京大学的邰颖团队合作，开发出一套高保真2D数字人说话驱动系统。该系统致力于提供表情自然、唇音同步且头部姿态协调的数字人播报对话服务，适用于智能客服、教育培训、广告营销等多个领域。

该系统能够根据给定目标人物的照片或视频以及任意一段音频，生成与音频同步的目标人物说话视频流。生成的视频不仅需要高度逼真，表情和姿态也需要自然流畅，同时还要保证实时性，以便与语言大模型和音频合成能力无缝对接，创建出一个逼真的数字替身。

该系统在三个关键技术领域进行了创新：

首先，它实现了高性能的实时播报。相较于传统方法，这套系统在实时生成口型方面达到了业界领先水平，支持中英文两种语言的数字人口型驱动，并且能够在保持高质量的前提下，实现每帧30毫秒的实时性能。

其次，系统采用了两阶段学习框架，将数字人说话驱动分解为从音频到口型参数，再到生成人像的过程，从而简化了学习过程，提高了生成效果。

最后，该系统引入了情绪引导学习模块，支持正常、微笑、惊讶、愤怒、恐惧、悲伤等多种情绪的控制，使生成的数字人具备丰富的情感表达能力。

此外，这套系统的数字人生成技术实现了端到端的二阶段实时生成性能，支持512x512像素的人脸区域生成，并且具备多种情绪控制功能。在评测集VoxCeleb指标中，其口型准确度达到4.3，自然度评分达到11.1。

中国移动表示，这一研究成果有着广泛的应用前景，不仅降低了创作门槛，提升了生成人物的视觉质量，还为5G新通话和“和留言”等品牌的业务拓展提供了强有力的支持。

中国移动通话生成情绪研发用于说话驱动联合数字

本文来源：图灵汇文章作者：陶畅

中国名牌

2024-12-12

199

IT之家 12 月 12 日消息，据人民邮电报报道，日前，秦山核电 5G 专网正式上线，这是国内规模最大的电力 5G 专网，站内开通超过 3900 个 5G 皮基站，5G 专网覆盖秦山核电 9 台机组

国内规模最大的电力 5G 专网在秦山核电正式上线