谷歌 Fluid 颠覆共识,AI 文生图领域自回归模型超越扩散模型

图灵汇官网

导读:

图灵汇 10 月 23 日消息,科技媒体 The Decoder 昨日(10 月 22 日)发布了一篇报道,称谷歌 DeepMind 团队与麻省理工学院(MIT)合作,推出了一款名为“Fluid”的新模型。该模型在参数规模达到 105 亿时,实现了最佳的文生图效果。

谷歌 DeepMind 推出新型“Fluid”模型

目前在文生图领域,行业内普遍认为扩散模型(Diffusion Models)优于自回归模型(Autoregressive Models)。然而,谷歌 DeepMind 和 MIT 的研究团队发现,通过采用连续 tokens 和随机生成顺序,自回归模型的性能和可扩展性得到了显著提升。

两种模型简介

扩散模型 (Diffusion Models)

扩散模型是一种新兴的内容生成技术,它模仿的是信号从噪声中逐渐恢复的过程。通过逐步减少随机噪声,扩散模型可以生成高质量的图像、文本等数据。例如,DDPM(离散扩散概率模型)及其变体在图像生成领域备受关注。

自回归模型 (Autoregressive Models)

自回归模型在预测序列中的下一个元素时,依赖于前面的元素。例如,基于 Decoder-only 的 GPT 系列(如 GPT-3、GPT-4)是典型的自回归模型,它们逐词预测下一个词,从而生成连贯的文本段落。

Fluid 模型的关键创新

谷歌 DeepMind 和 MIT 的团队发现,使用连续 tokens 和随机生成顺序是提高自回归模型性能和可扩展性的关键因素。具体来说:

  • 连续 tokens:与离散 tokens 不同,连续 tokens 可以更精确地存储图像信息,减少信息丢失。这使得模型能够更好地重建图像,提高视觉质量。

  • 随机生成顺序:大多数自回归模型以固定顺序生成图像,而 Fluid 模型采用随机生成顺序,可以在每一步预测任意位置的多个像素。这种方法在理解整体图像结构时表现更加出色。

Fluid 模型的表现

Fluid 模型在规模达到 105 亿参数时,在重要基准测试中超越了 Stable Diffusion 3 扩散模型和谷歌此前的 Parti 自回归模型。与 Parti 相比,Fluid 模型表现出显著改进。尽管 Parti 拥有 200 亿参数,但在 MS-COCO 测试中仅达到 7.23 的 FID 分数,而小型 Fluid 模型(3.69 亿参数)却达到了相同的分数。

结论

谷歌 DeepMind 和 MIT 的研究成果表明,通过创新的设计和优化,自回归模型在文生图领域也能实现卓越的性能,甚至超越传统的扩散模型。这无疑为未来的研究提供了新的方向和可能性。

本文来源: 互联网 文章作者: 飞天小报
    下一篇

导读:划重点 01微软宣布将在Dynamics 365平台上推出10个自主AI智能代理,旨在提升企业生产力。 02这些AI代理能基于更广泛的数据进行判断和推理,覆盖企业运营的多个核心环节。 03根据企