腾讯混元文生图大模型开源训练代码与新插件,持续建设开源生态

图灵汇官网

腾讯混元文生图大模型全面开源,推动技术创新与个性化应用

全球开发者与创作者的新机遇

6月21日,腾讯混元文生图大模型(混元DiT模型)宣布全面开源其训练代码,同步开放混元DiT LoRA 小规模数据集训练方案与可控制插件ControlNet。这一举措为全球范围内的企业、个人开发者和创作者带来了前所未有的便利,允许他们在混元DiT训练代码的基础上进行个性化调整与创新,构建定制化的应用,加速技术迭代进程。

中文原生优势,简化数据处理流程

作为一款中文原生模型,混元DiT使用户能够直接使用中文数据与标签进行模型训练,无需繁琐的英文翻译步骤,极大地提升了数据处理效率与体验。

成功案例与社区响应

混元DiT在Hugging Face平台及GitHub上发布,面向企业与个人开发者提供免费商用服务,成为业内首个支持中英文双语输入及理解的开源DiT架构文生图模型。短短一个月内,其GitHub上的Star数量达到2,400,位居开源社区热门DiT模型前列,展示了其强大的市场吸引力与技术价值。

LoRA与ControlNet:拓展开源生态

混元DiT的开源不仅限于基础模型,还包含了LoRA小规模数据集训练方案与可控制插件ControlNet,进一步丰富了开源生态。LoRA技术在文生图领域广受好评,大量创作者利用其特性创造出多样化模型,如个性化的照片生成、特定风格的图像创造等。

实用插件与训练数据展示

混元DiT提供专属LoRA插件,仅需一张图片即可生成个性化模型,如“青花瓷”生成模型,用户通过输入简单提示词即可获得高质量图像。同时,混元DiT开源了ControlNet训练方案,包括边缘、深度、人体姿势等条件的模型,增强图像生成的控制性与多样性。

持续优化与行业应用

腾讯混元团队不断优化基于混元DiT的开源组件,与行业共建下一代视觉生成开源生态。通过发布专属加速库,混元DiT的推理效率显著提升,生图时间缩短75%,且模型易用性大幅提升,用户可通过ComfyUI图形化界面或Hugging Face Diffusers通用模型库轻松调用混元DiT模型。

广泛的应用场景与合作伙伴

混元文生图能力已被应用于素材创作、商品合成、游戏出图等业务及场景,如腾讯广告的一站式AI广告创意平台“腾讯广告妙思”,以及《央视新闻》《新华日报》等媒体在新闻内容生产中的应用,充分展示了其在不同领域的潜力与价值。


以上内容是对原文进行了深度理解与改写,旨在保持原文核心信息的同时,提高文章的可读性与原创性,同时避免了直接引用与相似度过高的问题。

本文来源: 图灵汇 文章作者: 立冬