谷歌 Fluid 颠覆共识:两大因素被发现,AI 文生图领域自回归模型超越扩散模型

图灵汇官网

图灵汇 10 月 23 日报道,科技媒体 The Decoder 在 10 月 22 日发布了一篇文章,介绍了谷歌 DeepMind 团队与麻省理工学院(MIT)合作推出的新模型——“Fluid”。该模型在参数量达到 105 亿时,展现出卓越的图文生成能力。

当前,在图文生成领域,业内普遍认为扩散模型(Diffusion Models)优于自回归模型(Autoregressive Models)。然而,谷歌 DeepMind 和 MIT 团队的研究揭示了自回归模型的潜力。

以下是两种模型的简要说明:

  • 扩散模型:这种模型通过逐步减少噪声来生成高质量的图像、文本等内容。例如,DDPM(离散扩散概率模型)及其变种备受关注。

  • 自回归模型:这类模型通过预测序列中的下一个元素来生成内容,通常用于生成连贯的文本。典型的例子包括 GPT 系列模型,如 GPT-3 和 GPT-4。

谷歌 DeepMind 和 MIT 团队通过研究发现,使用连续 tokens(而非离散 tokens)和随机生成顺序(而非固定顺序)可以显著提升自回归模型的性能和扩展性。

具体来说,离散 tokens 会因为信息丢失而导致图像质量下降,而连续 tokens 能够更精确地存储图像信息,从而改善重建效果。此外,Fluid 模型采用随机生成顺序,使得模型可以在每一步预测任意位置的多个像素,从而更好地理解图像的整体结构。

Fluid 模型结合了连续 tokens 和随机生成顺序后,当参数量增加至 105 亿时,其在基准测试中的表现超过了 Stable Diffusion 3 扩散模型和谷歌此前的 Parti 自回归模型。

与 Parti 相比,Fluid 模型在参数量远小于 Parti 的情况下,取得了相同的性能。Parti 模型拥有 200 亿参数,而在 MS-COCO 数据集上的 FID 分数为 7.23,而小型的 Fluid 模型(参数量为 3.69 亿)也达到了同样的分数。

Fluid 模型

这一发现表明,自回归模型在特定条件下仍具有巨大的潜力,有望在未来推动图文生成技术的发展。

本文来源: 图灵汇 文章作者: 明康
    下一篇

图灵汇 10 月 23 日消息,微软和 OpenAI 宣布,他们将向部分媒体机构提供高达 1000 万美元(图灵汇备注:当前约 7129.5 万元人民币)的资助,以鼓励他们尝试在新闻编辑室中使用