腾讯混元文生图大模型(混元DiT)近期宣布开源小显存版本,这一举措旨在优化模型运行环境,使其仅需6GB显存即可运行,极大地方便了使用个人电脑进行本地部署的开发者。通过与Hugging Face的合作,小显存版本、LoRA与ControlNet插件已适配至Diffusers库,简化了开发者调用模型的步骤,只需三行代码即可轻松启动。
混元DiT模型升级至1.2版本,不仅提升了图片的质感,优化了构图,还新增了对Kohya图形化界面的支持,降低了开发者训练个性化LoRA模型的门槛。
腾讯还开源了混元文生图打标模型“混元Captioner”,支持中英文双语,专门针对文生图场景优化,能够高效提升图像描述的质量,生成结构化、完整且准确的图片描述。此外,混元Captioner还允许开发者导入个性化背景知识,增强模型适应性。
混元DiT自全面开源以来,持续构建生态系统。不仅推出了加速库,提升推理效率,还开源了推理代码,发布了LoRA和ControlNet等插件。在众多开发者的支持下,混元DiT发布仅两个月,GitHub上的Star数就超过了2,600,成为最受欢迎的国产DiT开源模型。
腾讯混元DiT的这一系列开源动作,不仅降低了模型部署与使用的门槛,还提供了丰富的工具与资源,促进了文生图领域的创新与发展。随着更多开发者加入,混元DiT有望在全球范围内产生更大的影响力。