腾讯近期推出了一项重大举措,针对其混元文生图开源大模型(混元DiT模型),推出了专门的加速库,显著提升了推理效率,使得生成图像的时间缩短了高达75%。这一创新不仅降低了使用门槛,而且使用户能够通过ComfyUI图形化界面轻松访问和利用混元文生图模型的能力。
混元DiT模型现已集成至Hugging Face Diffusers通用模型库中,用户仅需三行代码即可调用,无需下载原始代码库,极大地简化了操作流程。在此之前,腾讯已宣布旗下混元文生图大模型全面升级并对外开源,旨在为业界提供首个支持中文和英文双语输入的DiT架构文生图开源模型,兼容视频等多模态视觉生成任务。
自开源以来,混元DiT模型广受开发者青睐,GitHub上的Star数量迅速突破2100,成为开源社区内热门DiT模型之一。腾讯为此上线了专属加速库,通过知识蒸馏与TensorRT高性能推理框架,成功将DiT模型的采样步数压缩,进而优化了推理效率,将推理时间缩短了75%。用户无需额外操作或设备升级,只需应用蒸馏权重,即可将迭代步骤减少一半,大幅节省时间。
为了让开发者体验更加便捷,腾讯混元官方进一步优化了使用流程。与吐司社区合作,用户现在可通过ComfyUI的图形化界面,轻松访问和使用混元文生图模型。此外,混元DiT模型已入驻Hugging Face官方模型库Diffusers,并配套了相应的调用和生成代码,用户无需下载原始代码,仅需执行几行代码即可调用模型,极大降低了使用成本。
ComfyUI是一款专为文生图领域设计的WebUI界面,它将复杂的扩散算法模块化并可视化,提高了生成效率和资源利用效率,降低了开发者的入门门槛。借助ComfyUI,用户能通过直观的工作流程与混元DiT文生图模型互动,获得与官方模型相媲美的效果。
围绕ComfyUI构建的开源社区日益壮大,混元DiT对ComfyUI的支持,进一步促进了基于最新DiT架构的文生图模型的共享与交流。Hugging Face的Diffusers库已成为调用主流文生图大模型的标准平台,混元DiT模型的接入,不仅增强了模型的易用性,还简化了用户操作流程,加速了图片生成速度。
腾讯文生图负责人芦清林表示:“混元文生图模型的开源受到广泛欢迎和支持,我们对此深感欣慰,并将持续优化开源生态,以便更多开发者能更便捷地利用这一先进技术。我们热切期待与社区成员携手,共同推动下一代视觉生成开源生态的发展,加速大模型行业的进步。”