在AI领域,特别是文生视频技术的革新上,中国企业的创新步伐日益加快。继OpenAI的Sora模型引发行业轰动后,国内企业纷纷投身于这一领域的研发,其中快手的“可灵”视频生成大模型的推出,标志着国产文生视频技术正步入快速发展阶段。
“可灵”视频生成大模型的官网已正式上线,它不仅在效果上与Sora模型相匹敌,而且已经在快手旗下应用——快影App中开启了邀测体验,为用户带来了前所未有的创作体验。这款大模型由快手AI团队自主研发,采用了与Sora相似的技术路径,并融入了多项自研创新技术,展现出显著优势:
流畅的运动表现:通过3D时空联合注意力机制,“可灵”能够生成大幅度且合理的动态效果,确保运动符合自然规律,让观众仿佛置身于真实场景之中。比如,宇航员在月球上的奔跑,动作既轻盈又不失自然,影子的运动亦十分得当。
物理世界的逼真模拟:借助强大的模型架构和Scaling Law,该模型能够精确地再现现实世界中的光影、重力作用下的流体运动等,创造出高度接近现实的视觉体验。以一个中国男孩享受汉堡的场景为例,每一口咬下的瞬间,汉堡形状的变化与脸部表情的细腻表现,都令人印象深刻。
创意与概念的无限组合:得益于模型对文本-视频语义的理解能力和Diffusion Transformer架构的学习能力,“可灵”能够将用户丰富的想象力转化为直观的画面,如熊猫弹吉他坐在湖边唱歌的场景,展现出无限的创意空间。
高分辨率与长时长的视频生成:支持高达1080p分辨率、2分钟(帧率30fps)的视频生成,同时提供自由的宽高比选择,满足不同场景的创作需求。在快影App中,用户能够体验到分钟级的视频生成过程,如跟随镜头,欣赏小男孩骑自行车游览花园,感受四季变换的美景。
“可灵”大模型的研发过程中,快手注重构建高效的大规模自动化数据解决方案,包括视频挖掘、多维度筛选、描述增强和效果质量评估等多个环节,确保模型在训练过程中的效率和质量。通过优化计算和通信方案,模型实现了GPU和网络带宽的高效利用,并具备了分钟级的故障恢复能力,保证了快速提升模型效果的能力。
快影App已为创作者提供了文生视频功能的邀测机会,未来还将开放图生视频功能,进一步拓展AI创作的边界。基于“可灵”的技术,快手正在不断探索更多应用方向,如“AI舞王”功能,用户只需上传照片,即可体验舞蹈乐趣;即将推出的“AI唱跳”功能,则能生成生动的唱跳视频,仅需一张照片,即可实现创作。
随着AI大模型时代的到来,快手作为头部短视频平台,正全面布局AI技术,通过发布如“快意”、“可图”等大语言模型和文生图产品,以及一系列视频关键技术,引领行业创新,为用户带来更加丰富、便捷的AI创作与互动体验。随着“可灵”大模型的发布,快手将继续加速AI技术研发与应用,推动AI创新成果惠及更广泛的用户群体。