谷歌 Fluid 颠覆共识：两大因素被发现，AI 文生图领域自回归模型超越扩散模型

明康

2024-10-23 13:35:00

图灵汇 10 月 23 日报道，科技媒体 The Decoder 在 10 月 22 日发布了一篇文章，介绍了谷歌 DeepMind 团队与麻省理工学院（MIT）合作推出的新模型——“Fluid”。该模型在参数量达到 105 亿时，展现出卓越的图文生成能力。

当前，在图文生成领域，业内普遍认为扩散模型（Diffusion Models）优于自回归模型（Autoregressive Models）。然而，谷歌 DeepMind 和 MIT 团队的研究揭示了自回归模型的潜力。

以下是两种模型的简要说明：

谷歌 DeepMind 和 MIT 团队通过研究发现，使用连续 tokens（而非离散 tokens）和随机生成顺序（而非固定顺序）可以显著提升自回归模型的性能和扩展性。

具体来说，离散 tokens 会因为信息丢失而导致图像质量下降，而连续 tokens 能够更精确地存储图像信息，从而改善重建效果。此外，Fluid 模型采用随机生成顺序，使得模型可以在每一步预测任意位置的多个像素，从而更好地理解图像的整体结构。

Fluid 模型结合了连续 tokens 和随机生成顺序后，当参数量增加至 105 亿时，其在基准测试中的表现超过了 Stable Diffusion 3 扩散模型和谷歌此前的 Parti 自回归模型。

与 Parti 相比，Fluid 模型在参数量远小于 Parti 的情况下，取得了相同的性能。Parti 模型拥有 200 亿参数，而在 MS-COCO 数据集上的 FID 分数为 7.23，而小型的 Fluid 模型（参数量为 3.69 亿）也达到了同样的分数。

Fluid 模型

这一发现表明，自回归模型在特定条件下仍具有巨大的潜力，有望在未来推动图文生成技术的发展。

文生模型扩散共识颠覆回归超越因素领域发现

本文来源：图灵汇文章作者：明康

微软和 OpenAI 将向媒体提供 1000 万美元资助，推动其使用 AI 工具