GANs are so back!? 2025 年了,GAN 能否击败扩散模型?答案是 Yes! 本周五,AI 社区开始讨论一种全新极简主义 GAN(生成对抗网络)。摘要:现代版 GAN 基准论文成为了周五 HuggingFace 热度最高的研究。该论文也入选了 NeurIPS 2024。它并不像以往那样走 tricks 路径 —— 通过一场「现代化」改造,GAN 现在可以进行更长时间的训练(与扩散模型的训练步骤数相当),一旦
论文链接:https://arxiv.org/abs/2501.05441
GitHub 链接:https://github.com/brownvc/R3GAN
HuggingFace:https://huggingface.co/spaces/multimodalart/R3GAN
有一种广泛流传的说法认为 GAN 很难训练,并且文献中的 GAN 架构充斥着大量的经验性 tricks。但是作者团队提供了反驳这一说法的证据,并以更有原则的方式建立了一个现代版 GAN 基线。 在该研究中,作者首先通过推导出一个行为良好的正则化相对 GAN 损失函数,解决了模式 dropping 和不收敛问题,而这些问题在以前经常是通过大量 ad-hoc tricks 来应对的。他们从数学层面分析了这一损失函数,并证明它具有局部收敛保证,这与大多数现有的相对损失函数不同。 其次,这个损失函数能够抛弃所有的 ad-hoc tricks,并用现代版架构替代常见的 GAN 中所使用的过时的骨干网络。以 StyleGAN2 为例,他们展示了一个简化过的现代版路线图 ——R3GAN(Re-GAN)。尽管方法非常简单,但它在 FFHQ、ImageNet、CIFAR 和 Stacked MNIST 数据集上却超越了 StyleGAN2,并且在与最先进的 GAN 和扩散模型的比较中表现出色。 在生成式 AI 技术兴起之前,GAN 是 AI 领域中的热门研究方向,该方法能让我们能够在一次前向传递中生成高质量图像。然而我们无法忽略的是,Goodfellow 等人构建的原始目标因其极小极大特性而极难优化,训练的不稳定性一直对 GAN 的研究产生着负面影响。 与扩散模型等其他生成模型相比,GAN 的发展一直比较缓慢。考虑到一旦得到了表现良好的损失函数,我们就可以自由地设计现代 SOTA 主干架构。在新工作中,作者剥离了 StyleGAN 的所有功能,找出那些必不可少的功能,然后从现代 ConvNets 和 transformer 中借用了架构设计,包括一系列 ResNet 设计、初始化、重采样、分组卷积、no normalization 等,引出了一种比 StyleGAN 更简单的设计。 该工作率先从数学上证明了 GAN 不需要通过改进的正则化损失来进行训练。 提高训练稳定性 该研究证明,通过将目标进展与正则化训练损失结合起来,GAN 获得了更高的训练稳定性,能够用现代骨干网络升级 GAN。 首先,该研究提出了一个新的目标,通过零中心梯度惩罚增强 RpGAN,提高稳定性。该研究从数学上证明,梯度惩罚 RpGAN 与正则化经典 GAN 享有相同的局部收敛保证,并且删除正则化方案会导致不收敛。 在定义 GAN 的目标时,研究者需要应对两个挑战:稳定性和多样性。为了在这两方面同时取得进展,该研究将 stable 方法与基于理论的简单正则化器结合起来。 传统 GAN 被表述为判别器 D_ψ 和生成器 G_θ 之间的极小极大博弈: 在实际实现中,传统 GAN 容易受到两种常见故障场景的影响:模式 collapse/dropping 和不收敛。 该研究采用了一种略有不同的极小极大博弈 ——RpGAN,由 Jolicoeur-Martineau 等人提出,以解决模式 dropping 问题。 一般的 RpGAN 定义为: 然而,经验表明,未正则化的 RpGAN 表现不佳。 为了解决 RpGAN 不收敛的问题,该研究探索梯度惩罚作为解决方案,因为事实证明,零中心梯度惩罚 (0-GP) 有助于经典 GAN 的收敛训练。两个最常用的 0-GP 是 R1 和 R2:FID — FFHQ-64 为了与 EDM 进行直接比较,研究团队在 64×64 分辨率的 FFHQ 数据集上评估了模型。为此,他们去除了 256×256 模型中的两个最高分辨率阶段,从而得到了一个生成器,其参数数量不到 EDM 的一半。尽管如此,他们的模型在该数据集上的表现仍是超过了 EDM,并且只需要一次函数评估。
FID — ImageNet-64 研究团队在 ImageNet-64 数据集上评估了他们的模型,以测试其可扩展性。他们在 ImageNet-32 模型的基础上增加了一个分辨率阶段,从而得到了一个包含 104M 参数的生成器。该模型的参数量几乎是依赖于 ADM 骨干网络的扩散模型 的三分之一,这些模型的参数量大约为 300M。 尽管模型较小,并且他们的模型在一步生成样本的同时,其在 FID 指标上超越了更大参数量的扩散模型(见下图)。
来源:晚晚的星河日记
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!