随着腾讯混元文生图大模型(混元DiT)的小显存版本的开源发布,图像生成领域的门槛显著降低。这一版本仅需6GB显存就能运行,为个人电脑本地部署的开发者提供了前所未有的便利,极大地促进了图像生成技术的普及。
混元DiT的小显存版本与LoRA、ControlNet等插件兼容,已整合至Diffusers库中,使得开发者能够轻松调用,无需繁琐的代码编写,简化了使用流程。此外,混元DiT还接入了Kohya,一个提供图形化界面的开源模型微调工具,降低了开发者训练个性化LoRA模型的难度。
混元DiT模型升级至1.2版本,不仅在显存需求上实现了优化,还在图片质感与构图方面实现了显著提升,为用户提供更加真实、细腻的图像生成体验。
腾讯宣布开源混元Captioner模型,这一模型支持中英文双语,专为文生图场景优化,能够高效生成高质量的文本到图像数据集。相较于其他开源模型,混元Captioner在理解与表达中文语义、生成结构化且准确的图片描述方面表现出色,同时具备识别常见人物与地标的能力,且支持开发者自定义背景知识的导入。
混元DiT的开源行动不仅提升了模型的易用性,还激发了全球开发者社区的热情。短短两个月内,混元DiT的GitHub星标数量突破2600,成为最受欢迎的国产DiT开源模型之一。这一成就标志着混元DiT正在构建一个繁荣的开源生态系统,为图像生成技术的创新和发展注入了强大动力。