腾讯混元文生图开源模型推出小显存版本，仅需6G显存即可运行

张绍会

2024-07-04 00:00:00

随着腾讯混元文生图大模型（混元DiT）的小显存版本的开源发布，图像生成领域的门槛显著降低。这一版本仅需6GB显存就能运行，为个人电脑本地部署的开发者提供了前所未有的便利，极大地促进了图像生成技术的普及。

混元DiT的小显存版本与LoRA、ControlNet等插件兼容，已整合至Diffusers库中，使得开发者能够轻松调用，无需繁琐的代码编写，简化了使用流程。此外，混元DiT还接入了Kohya，一个提供图形化界面的开源模型微调工具，降低了开发者训练个性化LoRA模型的难度。

混元DiT模型升级至1.2版本，不仅在显存需求上实现了优化，还在图片质感与构图方面实现了显著提升，为用户提供更加真实、细腻的图像生成体验。

腾讯宣布开源混元Captioner模型，这一模型支持中英文双语，专为文生图场景优化，能够高效生成高质量的文本到图像数据集。相较于其他开源模型，混元Captioner在理解与表达中文语义、生成结构化且准确的图片描述方面表现出色，同时具备识别常见人物与地标的能力，且支持开发者自定义背景知识的导入。

混元DiT的开源行动不仅提升了模型的易用性，还激发了全球开发者社区的热情。短短两个月内，混元DiT的GitHub星标数量突破2600，成为最受欢迎的国产DiT开源模型之一。这一成就标志着混元DiT正在构建一个繁荣的开源生态系统，为图像生成技术的创新和发展注入了强大动力。

文生显存腾讯仅需开源模型即可运行版本推出

本文来源：图灵汇文章作者：张绍会

重保季 | 数据安全全生命周期布防，轻松应对重保“大考”