亮点概览 - 增强功能:上海人工智能实验室推出了新一代视频生成大模型“书生筑梦 2.0”,支持生成5秒至20秒长视频,且分辨率达到720x480。 - 开源算法:同步发布了视频增强算法VEnhancer,集成超分辨率与修复功能,显著提升视频稳定性和清晰度。 - 卓越性能:在开源2B模型中表现优异,性能与顶级5B模型媲美。
核心技术解析
“书生筑梦 2.0”采用先进的扩散式Transformer网络,结合自注意力、交叉注意力与时间注意力机制,高效处理视频的空间与时间信息。
开源的LiteGen框架针对扩散任务进行了优化,采用多项技术减少显存使用,支持更大序列长度的训练,提升计算效率。
由来自上海人工智能实验室和新加坡南洋理工大学S-Lab的专家组成,专注于视频生成技术的创新与发展,已推出多项前沿项目。
上海人工智能实验室的“书生筑梦 2.0”不仅在视频生成技术上实现了突破,还通过开源VEnhancer算法,为视频质量的提升提供了有力工具。团队的专业背景与创新成果,预示着视频生成领域的未来发展方向。