图灵汇 10 月 23 日报道,科技媒体 The Decoder 在 10 月 22 日发布了一篇文章,介绍了谷歌 DeepMind 团队与麻省理工学院(MIT)合作推出的新模型——“Fluid”。该模型在参数量达到 105 亿时,展现出卓越的图文生成能力。
当前,在图文生成领域,业内普遍认为扩散模型(Diffusion Models)优于自回归模型(Autoregressive Models)。然而,谷歌 DeepMind 和 MIT 团队的研究揭示了自回归模型的潜力。
以下是两种模型的简要说明:
扩散模型:这种模型通过逐步减少噪声来生成高质量的图像、文本等内容。例如,DDPM(离散扩散概率模型)及其变种备受关注。
自回归模型:这类模型通过预测序列中的下一个元素来生成内容,通常用于生成连贯的文本。典型的例子包括 GPT 系列模型,如 GPT-3 和 GPT-4。
谷歌 DeepMind 和 MIT 团队通过研究发现,使用连续 tokens(而非离散 tokens)和随机生成顺序(而非固定顺序)可以显著提升自回归模型的性能和扩展性。
具体来说,离散 tokens 会因为信息丢失而导致图像质量下降,而连续 tokens 能够更精确地存储图像信息,从而改善重建效果。此外,Fluid 模型采用随机生成顺序,使得模型可以在每一步预测任意位置的多个像素,从而更好地理解图像的整体结构。
Fluid 模型结合了连续 tokens 和随机生成顺序后,当参数量增加至 105 亿时,其在基准测试中的表现超过了 Stable Diffusion 3 扩散模型和谷歌此前的 Parti 自回归模型。
与 Parti 相比,Fluid 模型在参数量远小于 Parti 的情况下,取得了相同的性能。Parti 模型拥有 200 亿参数,而在 MS-COCO 数据集上的 FID 分数为 7.23,而小型的 Fluid 模型(参数量为 3.69 亿)也达到了同样的分数。
这一发现表明,自回归模型在特定条件下仍具有巨大的潜力,有望在未来推动图文生成技术的发展。