6月21日,腾讯混元文生图大模型(混元DiT模型)宣布全面开源其训练代码,同步开放混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。这一举措为全球范围内的企业、个人开发者和创作者带来了前所未有的便利,允许他们在混元DiT训练代码的基础上进行个性化调整与创新,构建定制化的应用,加速技术迭代进程。
作为一款中文原生模型,混元DiT使用户能够直接使用中文数据与标签进行模型训练,无需繁琐的英文翻译步骤,极大地提升了数据处理效率与体验。
混元DiT在Hugging Face平台及GitHub上发布,面向企业与个人开发者提供免费商用服务,成为业内首个支持中英文双语输入及理解的开源DiT架构文生图模型。短短一个月内,其GitHub上的Star数量达到2,400,位居开源社区热门DiT模型前列,展示了其强大的市场吸引力与技术价值。
混元DiT的开源不仅限于基础模型,还包含了LoRA小规模数据集训练方案与可控制插件ControlNet,进一步丰富了开源生态。LoRA技术在文生图领域广受好评,大量创作者利用其特性创造出多样化模型,如个性化的照片生成、特定风格的图像创造等。
混元DiT提供专属LoRA插件,仅需一张图片即可生成个性化模型,如“青花瓷”生成模型,用户通过输入简单提示词即可获得高质量图像。同时,混元DiT开源了ControlNet训练方案,包括边缘、深度、人体姿势等条件的模型,增强图像生成的控制性与多样性。
腾讯混元团队不断优化基于混元DiT的开源组件,与行业共建下一代视觉生成开源生态。通过发布专属加速库,混元DiT的推理效率显著提升,生图时间缩短75%,且模型易用性大幅提升,用户可通过ComfyUI图形化界面或Hugging Face Diffusers通用模型库轻松调用混元DiT模型。
混元文生图能力已被应用于素材创作、商品合成、游戏出图等业务及场景,如腾讯广告的一站式AI广告创意平台“腾讯广告妙思”,以及《央视新闻》《新华日报》等媒体在新闻内容生产中的应用,充分展示了其在不同领域的潜力与价值。
以上内容是对原文进行了深度理解与改写,旨在保持原文核心信息的同时,提高文章的可读性与原创性,同时避免了直接引用与相似度过高的问题。