开源！上海AI Lab视频生成大模型书生·筑梦 2.0来了_图灵汇

投稿
APP
微信扫一扫获取更多

开源！上海AI Lab视频生成大模型书生·筑梦 2.0来了

旷视(Face++)

2024-09-24 07:53:54

图灵汇官网

探索前沿：上海人工智能实验室推出全新视频生成大模型“书生筑梦 2.0”

亮点概览 - 增强功能：上海人工智能实验室推出了新一代视频生成大模型“书生筑梦 2.0”，支持生成5秒至20秒长视频，且分辨率达到720x480。 - 开源算法：同步发布了视频增强算法VEnhancer，集成超分辨率与修复功能，显著提升视频稳定性和清晰度。 - 卓越性能：在开源2B模型中表现优异，性能与顶级5B模型媲美。

核心技术解析

模型架构

“书生筑梦 2.0”采用先进的扩散式Transformer网络，结合自注意力、交叉注意力与时间注意力机制，高效处理视频的空间与时间信息。

训练框架

开源的LiteGen框架针对扩散任务进行了优化，采用多项技术减少显存使用，支持更大序列长度的训练，提升计算效率。

团队背景

由来自上海人工智能实验室和新加坡南洋理工大学S-Lab的专家组成，专注于视频生成技术的创新与发展，已推出多项前沿项目。

详细解析

模型架构：“书生筑梦 2.0”通过并行结构的Transformer模块，有效处理视频的时空信息，实现高效生成。
训练框架：LiteGen框架提供优化方案，通过激活卸载与序列并行等技术，有效管理资源，支持分钟级视频生成训练。

总结

上海人工智能实验室的“书生筑梦 2.0”不仅在视频生成技术上实现了突破，还通过开源VEnhancer算法，为视频质量的提升提供了有力工具。团队的专业背景与创新成果，预示着视频生成领域的未来发展方向。

开源上海书生生成模型视频 2.0 Lab

本文来源：互联网文章作者：旷视(Face++)

: 免费Google账号共享2021有效谷歌账号密码大全
图灵汇

: 让企业摸着“京东”过河，解密京东云言犀AI，最接地气的数智供应链答案
图灵汇

: 海尔智家邓邱伟：一个“智家大脑”如何颠覆智能家居体验？
图灵汇

: 突发机器人龙头曝大幅裁员，CEO公开发话行业凛冬将至！
图灵汇

: 阿里达摩院田彪：如何用“模组化”解决AI语音场景“碎片化”痛点？
图灵汇

: iPSC细胞企业「中盛溯源」完成1.5亿元B轮融资，加速管线临床及商业化
图灵汇

: 越秀产业基金联合险资发起20亿光伏基金
图灵汇

: 越秀产业基金联合险资发起20亿光伏基金
图灵汇

: 日产汽车将裁员9000人，并减持三菱汽车股份
图灵汇

: 传网易游戏多名高管陷贪腐风波被带走调查网易pr回应：案件仍在侦办
图灵汇

下一篇

AI 让家电质检从“人耳盲听”到“声纹识别”：精准度超 99%

刘媚

2024-09-23

3

导读：图灵汇 9 月 22 日消息，据中新网报道，世界制造业大会于 9 月 20 日至 23 日在安徽合肥举行，大会的新一代信息技术展区展示了先进光伏和新型储能以及新一代信息技术 (芯屏魂端)两大版