PixVerse V2采用了Diffusion+Transformer(DiT)架构,融合了多项技术创新,显著提升了视频生成的质量和多样性。该版本提供更长、更连贯、更有趣的视频内容生成能力,同时引入了AI视频生成的新玩法,允许用户一次生成多个视频片段,满足从短至8秒到长至40秒的视频需求。
PixVerse V2以DiT模型为核心,通过行业领先的模型训练效率,实现了视频大模型的规模化应用。它在时空建模方面引入了自主研发的时空注意力机制,不仅超越了传统时空分离和fullseq架构,还显著增强了对空间和时间的感知能力,特别是在处理复杂场景时表现出色。
在文本理解层面,PixVerse V2采用更强大的多模态模型提取prompt的特征,实现了文本信息与视频内容的精准匹配,进一步强化了模型的理解和表达能力。此外,通过优化传统flow模型,PixVerse V2实现了加权损失,加速了模型的收敛过程,提高了整体训练效率。
针对用户反馈和社区讨论,爱诗团队专注于解决一致性问题,这是AI视频创作的关键挑战。PixVerse V2通过设计支持一键生成1至5段连续视频内容的功能,确保了片段之间的主体形象、画面风格和场景元素一致性,极大地提升了用户创作的效率和便捷性。
除了支持生成结果的二次编辑,PixVerse V2还具备智能识别和自动联想功能,允许用户灵活调整视频主体、动作、风格和运镜,进一步扩展了创作的空间。爱诗团队致力于平衡模型性能与美学效果,计划在未来三个月内进行多次迭代升级,持续优化AI视频生成体验。
PixVerse V2的目标是让更多的用户享受到AI视频创作的乐趣,无论是捕捉生活灵感瞬间,还是讲述扣人心弦的故事,都能轻松实现。