比扩散模型快50倍!OpenAI发布多模态模型实时生成进展

图灵汇官网

导读

01 OpenAI 发布了多模态模型实时生成的研究成果,该模型的速度比传统的扩散模型快50倍,仅需两步采样。

02 研究团队成功将连续时间一致性模型的训练规模扩展至15亿参数,并在512×512分辨率的ImageNet数据集上进行了训练。

03 为了实现这一突破,研究人员提出了TrigFlow框架,将EDM和Flow Matching两种方法结合起来,解决了训练不稳定的挑战。

改写内容

OpenAI最近发布了一项关于多模态模型实时生成的研究成果。该模型不仅速度快,而且仅需两步采样,速度比传统扩散模型快50倍。研究团队成功将连续时间一致性模型的训练规模扩展至15亿参数,并在512×512分辨率的ImageNet数据集上进行了训练。这一突破的关键在于他们提出的TrigFlow框架,它统一了EDM(指数扩散模型)和Flow Matching两种方法,解决了训练过程中不稳定的挑战。

研究人员通过一系列改进,包括切向量归一化和自适应权重等技术,提高了模型的训练稳定性。实验结果显示,改进后的一致性模型在多个基准数据集上表现出色,FID分数差距在10%以内。特别值得注意的是,这些模型只需两步采样即可达到接近最佳扩散模型的生成质量,但计算开销仅为后者的10%。

此外,研究人员还比较了改进后的一致性模型与变分分数蒸馏(VSD)方法,发现前者能生成更多样化的样本,并在更高的引导水平下表现更佳。他们还发现,随着教师扩散模型规模的扩大,一致性模型的改进也相应增加。这意味着模型规模越大,生成质量的提升就越显著。

关键人物介绍

路橙

路橙在清华大学TSAIL实验室获得博士学位,导师是朱军教授。他在2019年获得清华大学计算机科学与技术系学士学位。目前,他是OpenAI的研究科学家,专注于大规模深度生成模型和强化学习算法。他对一致性模型、扩散模型、归一化流以及基于能量的模型有着丰富的研究经验。

宋在清华大学获得数学和物理学士学位后,又在斯坦福大学获得了计算机科学博士学位,导师是Stefano Ermon。他的研究目标是开发能够理解和处理高维数据的强大AI模型。目前,他专注于改进生成模型,包括它们的训练方法、架构设计、对齐、鲁棒性、评估技巧及推理效率。他对生成模型作为科学发现工具的潜力非常感兴趣。

本文来源: 互联网 文章作者: 一色
    下一篇

导读:划重点 01人工智能的发展给ESG投资带来新挑战,需要更多公司在水消耗和能源使用方面进行信息披露。 02气候变化领域的新技术如风能和太阳能吸引投资者关注,无碳电力来源成为焦点。 03氢将成为未来