华为云盘古媒体大模型:三大技术创新重塑数字内容生产与应用

图灵汇官网

在六月二十一日举办的华为开发者大会(HDC 2024)上,华为云发布了盘古媒体大模型,此模型在语音生成、视频生成及AI翻译三大领域展现了革新性的技术突破,彻底改变了内容创作与应用的模式。

盘古媒体大模型在视频生成领域的成就尤为显著。借助盘古技术,原始的实拍视频可以被转化为多种风格的高清动画。现场展示的生成视频中,演员的动作,如舞蹈与武术等大范围运动,以及角色的面部特征,均能在不同版本间保持一致的视觉效果。这项创新为视频制作行业开辟了全新的前景,极大地提升了生产效率,实现了一次拍摄多版本制作,最大化了作品的价值。

在语音生成方面,盘古大模型运用AI原声译制与视频生成功能,能够将原始影片转化为不同语言版本的视频,同时保持原有角色的声音特质、情感与语调。更重要的是,它还能同步生成相应的口型,确保不同语言对应的角色口型一致,使跨语言交流更为自然顺畅。

此外,华为云盘古大模型还对云会议系统进行了优化升级,通过集成基于大模型的语音复刻、AI文字翻译及TTS技术,实现了语音的实时同声传译。这使得全球用户在进行云端视频会议时,能够无障碍地使用母语交流。结合数字人技术,即便用户不便开启摄像头,也能通过数字人参会,实现以各种语言准确匹配口型,如同亲临现场一般。这一技术的应用,将为用户提供前所未有的便捷与高效的跨国语言沟通体验。在演示中,华为黄超展示了全新升级的云会议系统。

随着盘古大模型5.0的发布,华为云将引领媒体内容创作与应用的未来发展方向,为用户带来更多的便利与价值。

本文来源: 图灵汇 文章作者: 酷plane