腾讯公司近来发布了一款名为“混元DiT”的开源大型人工智能模型,此模型的推出搭配了三款全新控制插件——tile、inpainting与lineart,它们的加入极大地扩展了混元DiT的ControlNet矩阵功能。这三款插件的整合应用,能够覆盖从美术设计到创意制作、建筑规划、摄影艺术、美妆展示、电子商务等多个领域,为全球的开发者和创作者提供更为精确的图像生成工具,以定制专属模型及提升创作自由度。
在AI生成图像领域,ControlNet插件作为一种可控生成算法,通过引入额外条件,使用户能更细致地操控图像生成流程。Tile插件具备将画面分辨率提升至4K乃至8K的能力,特别适合追求极高质量细节的场景。Inpainting插件则类似于AI修复与扩充工具,能填充图片中被涂抹或褪色的部分,实现背景与主体的调整,以及局部画面的修改。而Lineart插件则能依据不同线条风格,生成真实人物、动漫角色或建筑图像,尤其适用于建筑效果图的创作和手绘作品上色。
腾讯混元DiT的ControlNet矩阵除了上述三款新插件外,还包含了先前推出的canny(边缘)、depth(深度)、pose(人体姿态)等条件下的ControlNet模型。这些插件的开源,为开发者和创作者提供了训练自定义模型的机会,从而进一步扩大了模型的应用范畴与适应性。
自腾讯混元DiT全面开源以来,公司积极构建开发者生态系统,推出专属加速库,优化推理速度,缩短生成图像的时间,并开源了推理代码。同时,模型的易用性显著提升,用户可通过Hugging Face Diffusers便捷调用混元DiT模型及其插件,或者借助Kohya和ComfyUI等图形界面进行训练与操作。
伴随混元DiT ControlNet生态的持续完善,以及在ComfyUI等工具的支持下,混元DiT模型的绘图品质、多样性与稳定性均实现了显著提升,极大激发了用户的创意潜能,促进了高质量视觉作品的产出。目前,混元DiT已跻身最受欢迎的国产DiT开源模型行列,其GitHub上的星标数已超过3.1k,充分展示了其在开发者群体中的广泛认可度。
通过这些创新的插件和模型,腾讯混元DiT为用户提供了一个强大的工具集合,以满足多样化的创意和专业需求,无论是在艺术创作、建筑设计还是其他视觉表达领域。