开源!上海AI Lab视频生成大模型书生·筑梦 2.0来了

图灵汇官网

探索前沿:上海人工智能实验室推出全新视频生成大模型“书生筑梦 2.0”

亮点概览 - 增强功能:上海人工智能实验室推出了新一代视频生成大模型“书生筑梦 2.0”,支持生成5秒至20秒长视频,且分辨率达到720x480。 - 开源算法:同步发布了视频增强算法VEnhancer,集成超分辨率与修复功能,显著提升视频稳定性和清晰度。 - 卓越性能:在开源2B模型中表现优异,性能与顶级5B模型媲美。

核心技术解析

模型架构

“书生筑梦 2.0”采用先进的扩散式Transformer网络,结合自注意力、交叉注意力与时间注意力机制,高效处理视频的空间与时间信息。

训练框架

开源的LiteGen框架针对扩散任务进行了优化,采用多项技术减少显存使用,支持更大序列长度的训练,提升计算效率。

团队背景

由来自上海人工智能实验室和新加坡南洋理工大学S-Lab的专家组成,专注于视频生成技术的创新与发展,已推出多项前沿项目。

详细解析

  • 模型架构:“书生筑梦 2.0”通过并行结构的Transformer模块,有效处理视频的时空信息,实现高效生成。
  • 训练框架:LiteGen框架提供优化方案,通过激活卸载与序列并行等技术,有效管理资源,支持分钟级视频生成训练。

总结

上海人工智能实验室的“书生筑梦 2.0”不仅在视频生成技术上实现了突破,还通过开源VEnhancer算法,为视频质量的提升提供了有力工具。团队的专业背景与创新成果,预示着视频生成领域的未来发展方向。

本文来源: 互联网 文章作者: 旷视(Face++)
    下一篇

导读:图灵汇 9 月 22 日消息,据中新网报道,世界制造业大会于 9 月 20 日至 23 日在安徽合肥举行,大会的新一代信息技术展区展示了先进光伏和新型储能以及新一代信息技术 (芯屏魂端)两大版