新智元报道
编辑:LRS
GAN 模型也有变大的潜力!
AIGC 爆火的背后,从技术的角度来看,是图像生成模型的架构发生了巨大的变化。
随着 OpenAI 发布 DALL-E 2,自回归和扩散模型一夜之间成为大规模生成模型的新标准,而在此之前,生成对抗网络(GAN)一直都是主流选择,并衍生出 StyleGAN 等技术。
从 GAN 切换到扩散模型的架构转变也引出了一个问题:能否通过扩大 GAN 模型的规模,比如说在 LAION 这样的大型数据集中进一步提升性能吗?
最近,针对增加 StyleGAN 架构容量会导致不稳定的问题,来自浦项科技大学(韩国)、卡内基梅隆大学和 Adobe 研究院的研究人员提出了一种全新的生成对抗网络架构 GigaGAN,打破了模型的规模限制,展示了 GAN 仍然可以胜任文本到图像合成模型。
论文链接:https://arxiv.org/abs/2303.05511
项目链接:https://mingukkang.github.io/GigaGAN/
GigaGAN 有三大优势。
1. 它在推理时速度更快,相比同量级参数的 Stable Diffusion-v1.5,在 512 分辨率的生成速度从 2.9 秒缩短到 0.13 秒。
2. 可以合成高分辨率的图像,例如,在 3.66 秒内合成 1600 万像素的图像。
3. 支持各种潜空间编辑应用程序,如潜插值、样式混合和向量算术操作等。
GAN 到极限了吗?
最近发布的一系列模型,如 DALL-E 2、Imagen、Parti 和 Stable Diffusion,开创了图像生成的新时代,在图像质量和模型灵活性方面达到了前所未有的水平。
现在占主导地位的范式「扩散模型」和「自回归模型」,都依赖于迭代推理这把双刃剑,因为迭代方法能够以简单的目标进行稳定的训练,但在推理过程中会产生更高的计算成本。
与此形成对比的是生成对抗网络(GAN),只需要一次 forward pass 即可生成图像,因此本质上是更高效的。
虽然 GAN 模型主导了生成式建模的「前一个时代」,但由于训练过程中的不稳定性,对 GAN 进行扩展需要仔细调整网络结构和训练考虑,因此 GANs 虽然在为单个或多个对象类别建模方面表现出色,但扩展到复杂的数据集上(更不用说开放世界物体生成了),仍然具有挑战性。
所以目前超大型的模型、数据和计算资源都主要集中在扩散和自回归模型上。
在这项工作中,研究人员主要解决以下问题:
GAN 能否继续扩大规模并有可能从这些资源中受益?或者说 GAN 已经到达极限了?是什么阻碍了 GAN 的进一步扩展?能否克服这些障碍?
稳定训练 GAN
研究人员首先用 StyleGAN2 进行实验,观察到简单地扩展骨干网会导致不稳定的训练,在确定了几个关键问题后,提出了在增加模型容量的同时稳定训练的技术。
首先,通过保留一个滤波器库(a bank of filters),并采取一个特定样本的线性组合来有效地扩展生成器的容量。
改编了几个在扩散模型上下文中常用的技术,并确认它们可以为 GANs 带来了类似的性能提升,例如将自注意力机制(仅图像)和交叉注意力(图像-文本)与卷积层交织在一起可以提高性能。
此外,研究人员重新引入了多尺度训练(multi-scaletraining),找到了一个新的方案可以改善图像-文本对齐和生成输出的低频细节。
多尺度训练可以让基于 GAN 的生成器更有效地使用低分辨率块中的参数,从而具有更好的图像-文本对齐和图像质量。
生成器
GigaGAN 的生成器由文本编码分支(text encoding branch)、样式映射网络(style mapping network)、多尺度综合网络(multi-scale synthesis network)组成,并辅以稳定注意力(stable attention)和自适应核选择(adaptive kernel selection)。
在文本编码分支中,首先使用一个预先训练好的 CLIP 模型和一个学习的注意层 T 来提取文本嵌入,然后将嵌入过程传递给样式映射网络 M,生成与 StyleGAN 类似的样式向量 w
合成网络采用样式编码作为 modulation,以文本嵌入作为注意力来生成 image pyramid,在此基础上,引入样本自适应核选择算法,实现了基于输入文本条件的卷积核自适应选择。
判别器
与生成器类似,GigaGAN 的判别器由两个分支组成,分别用于处理图像和文本条件。
文本分支处理类似于生成器的文本分支;图像分支接收一个 image pyramid 作为输入并对每个图像尺度进行独立的预测。
公式中引入了多个额外的损失函数以促进快速收敛。
实验结果
对大规模文本-图像合成任务进行系统的、受控的评估是困难的,因为大多数现有的模型并不公开可用,即使训练代码可用,从头开始训练一个新模型的成本也会过高。
研究人员选择在实验中与 Imagen、Latent Diffusion Models(LDM)、Stable Diffusion 和 Parti 进行对比,同时承认在训练数据集、迭代次数、批量大小和模型大小方面存在相当大的差异。
对于定量评价指标,主要使用 Frechet Inception Distance(FID)来衡量输出分布的真实性,并使用 CLIP 分数来评价图像-文本对齐。
文中进行了五个不同的实验:
1. 通过逐步纳入每个技术组件来展示提出方法的有效性;
2. 文本-图像合成结果表明,GigaGAN 表现出与稳定扩散(SD-v1.5)相当的 FID,同时生成的结果比扩散或自回归模型快数百倍;
3. 将 GigaGAN 与基于蒸馏的扩散模型进行对比,显示 GigaGAN 可以比基于蒸馏的扩散模型更快地合成更高质量的图像;
4. 验证了 GigaGAN 的上采样器在有条件和无条件的超分辨率任务中比其他上采样器的优势;
5. 结果表明大规模 GANs 仍然享有 GANs 的连续和分解潜伏空间的操作,实现了新的图像编辑模式。
经过调参,研究人员在大规模的数据集,如 LAION2B-en 上实现了稳定和可扩展的十亿参数 GAN(GigaGAN)的训练。
并且该方法采用了多阶段的方法,首先在 64×64 下生成,然后上采样到 512×512,这两个网络是模块化的,而且足够强大,能够以即插即用的方式使用。
结果表明,尽管在训练时从未见过扩散模型的图像,但基于文本条件的 GAN 上采样网络可以作为基础扩散模型(如 DALL-E 2)的高效、高质量的上采样器。
这些成果加在一起,使得 GigaGAN 远远超过了以前的 GAN 模型,比 StyleGAN2 大 36 倍,比 StyleGAN-XL 和 XMC-GAN 大 6 倍。
虽然 GiGAN 的 10 亿参数量仍然低于最近发布的最大合成模型,如 Imagen(3B)、DALL-E 2(5.5B)和 Parti(20B),但目前还没有观察到关于模型大小的质量饱和度。
GigaGAN 在 COCO2014 数据集上实现了 9.09 的 zero-shot FID,低于 DALL-E 2、Parti-750M 和 Stable Diffusion 的 FID
应用场景
提示插值(Prompt interpolation)
GigaGAN 可以在提示之间平滑地插值,下图中的四个角是由同一潜码生成,但带有不同的文本提示。
解耦提示混合(Disentangled prompt mixing)
GigaGAN 保留了一个分离的潜空间,使得能够将一个样本的粗样式与另一个样本的精细样式结合起来,并且 GigaGAN 可以通过文本提示直接控制样式。
粗到精风格交换(Coarse-to-fine sytle swapping)
基于 GAN 的模型架构保留了一个分离的潜在空间,使得能够将一个样本的粗样式与另一个样本的精样式混合在一起。
参考资料: