近日,OpenAI 推出了一款名为 sCM(Continuous-Time Consistency Model)的全新 AI 文生图工具。相较于传统的扩散模型,sCM 仅需两个步骤就能生成高质量的图像,据称其效率提升了约50倍,生成的图像质量甚至可以媲美顶级扩散模型。
目前,市面上常用的生成图片和音视频的技术大多依赖于扩散模型。然而,传统扩散模型的采样过程较为缓慢,通常需要数十到数百次的降噪处理才能产出高质量的样本,这无疑降低了模型的效率,不利于商业应用。
尽管已经有一些技术试图加速扩散模型的速度,但大多数方法都是通过复杂的训练过程优化模型性能,或者牺牲部分输出质量来换取速度上的提升。OpenAI 的研究团队另辟蹊径,提出了 sCM 这一全新的文生图方案。这种方法只需两个采样步骤,就能生成与扩散模型质量相当的高分辨率图像,大幅缩短了生成时间。
据了解,sCM 的训练方法主要是通过预训练的扩散模型提取的知识直接构建而成,旨在缩短采样时间的同时保持高质量图像的生成能力。研究人员使用 ImageNet 512x512 数据集,利用 sCM 方法训练模型,声称能够生成细节丰富且高质量的图像,展示了其在高分辨率生成方面的强大能力。尽管 sCM 只需要两个采样步骤,生成的样本质量依然接近顶级扩散模型,据称两者的差异不到10%。
这种高效的图像生成方案不仅有望在艺术创作、设计等领域大放异彩,也为 AI 文生图技术的发展带来了新的可能。