降低复杂度,加速生成:对扩散模型采样的可微分求解器搜索方法

360影视 欧美动漫 2025-06-04 16:12 2

摘要:在2025年第42届国际机器学习会议(ICML 2025)上,来自南京大学的王帅、宋天辉、王立民,以及阿里巴巴淘宝天猫集团的李泽贤、张启鹏、李旭彬、葛铁政、郑博等研究人员发表了一篇题为《Differentiable Solver Search for Fast

在2025年第42届国际机器学习会议(ICML 2025)上,来自南京大学的王帅、宋天辉、王立民,以及阿里巴巴淘宝天猫集团的李泽贤、张启鹏、李旭彬、葛铁政、郑博等研究人员发表了一篇题为《Differentiable Solver Search for Fast Diffusion Sampling》(扩散采样的可微分求解器搜索)的研究论文。这项研究旨在解决扩散模型采样过程中计算成本高的问题,帮助我们以更少的计算步骤获得高质量的生成图像。

一、研究背景:为什么扩散模型需要加速?

想象一下你在使用一台老式照片冲洗机。传统方式需要经过显影、定影、水洗等十几个步骤,耗时一小时才能得到一张照片。扩散模型就像这样的冲洗过程——虽然最终能得到精美的照片(即高质量生成图像),但过程繁琐且耗时。

扩散模型已经成为图像生成领域的佼佼者,它能产生比GAN模型和自回归模型更高质量的图像。然而,扩散模型有一个明显的缺点:它们在推理(生成图像)阶段需要进行大量的去噪步骤,这意味着需要反复运行神经网络,导致计算成本高昂,生成一张图像可能需要几分钟甚至更长时间。这严重限制了预训练扩散模型的广泛应用。

为了加速扩散模型的采样过程,研究人员主要探索了两种方法:基于训练的方法和基于求解器的方法。基于训练的方法(如LCM、ConsistencyMODEls等)通过重新训练模型来减少所需的采样步骤,但这会改变模型参数,可能无法充分发挥预训练模型的性能。而基于求解器的方法不需要改变模型参数,它们通过设计高效的数值求解器来加速采样过程,这使得它们可以直接应用于任何预训练的扩散模型。

二、研究人员发现了什么问题?

想象你正在使用导航软件。传统导航可能会严格按照固定路线指引你,但这条路线未必是最适合当前交通状况的。同样,现有的扩散模型求解器(如DPM-Solver++、UniPC等)主要基于Adams多步法,它们使用拉格朗日插值函数来估计中间状态,但这种方法可能并不是扩散模型的最佳选择。

研究团队发现,当前最先进的扩散求解器(如DPM-Solver++、UniPC)主要受到Adams多步法的启发,严重依赖于基于t(时间)的拉格朗日插值。然而,研究人员指出,这种插值方法对扩散模型来说并不是最优的。具体来说,这些求解器没有考虑到扩散模型的特殊性质,也没有充分利用数据驱动的方法来优化求解过程。

研究人员还发现,对于给定的预训练去噪函数及其对应的噪声调度器,最优的求解器应该是量身定制的,而不是采用通用的数值方法。这就像为特定道路状况定制的导航路线会比通用路线更高效。

三、研究团队提出了什么创新方法?

研究团队提出了一种名为"可微分求解器搜索"的方法,就像是为扩散模型定制了一个智能导航系统,能够找到最短、最高效的路径。

首先,研究人员分析了扩散ODE(常微分方程)采样过程中的误差来源。他们指出,插值函数的具体形式并不重要,关键在于将其简化为一组系数。这就像发现导航中真正重要的不是具体的转弯指令,而是整体的路线规划策略。

接着,他们定义了一个紧凑的搜索空间,主要包括两类参数: 1. 时间步长(timesteps):决定在扩散过程中何时进行采样 2. 求解器系数(solver coefficients):决定如何结合先前采样点的信息

基于这一分析,研究团队提出了一种新颖的可微分求解器搜索算法。这个算法能够在定义的搜索空间中找到最优的求解器参数,类似于自动驾驶系统能根据实时交通状况找到最佳路线。

具体来说,他们的算法包括以下几个关键部分:

首先是参数化处理。研究人员使用无界参数作为优化对象,通过softmax归一化将其转换为时间步长。对于求解器系数,他们巧妙地重新参数化对角线值,以满足隐含的约束条件。

其次是单调对齐监督。他们使用L步欧拉求解器的ODE轨迹作为参考,通过最小化目标轨迹与源轨迹之间的差距来训练参数,同时采用Huber损失作为辅助监督。

最后,他们还将方法扩展到DDPM/VP框架。由于DDPM是离散的,直接应用可微分求解器搜索是不可行的。但研究人员发现,每个DDPM都有对应的连续VP调度器,因此可以将搜索空间从不可行的离散空间转换为连续的SDE对应物,从而应用他们的方法。

四、实验结果展示了什么?

研究团队在多种扩散模型上进行了广泛的实验,结果令人印象深刻,就像一辆经过优化的汽车在相同的油量下能跑更远的距离。

在ImageNet 256×256数据集上,使用研究人员搜索的求解器: - 修正流模型SiT-XL/2在仅使用10步采样的情况下,FID分数达到了2.40 - FlowDCN-XL/2在相同步数下,FID分数达到了2.35 - DDPM模型DiT-XL/2在10步采样下,FID分数达到了2.33

这些成绩大幅超越了传统求解器(如DPM-Solver++和UniPC),甚至胜过了一些基于蒸馏的方法。特别值得注意的是,在配备优化的高阶求解器后,DDPM模型的性能能够与修正流模型相媲美甚至超越,这打破了人们认为修正流模型在有限步骤采样下更强的常规认知。

研究团队还将他们的方法应用于文本到图像的扩散模型,如FLUX、SD3和PixArt-Σ。即使是在搜索于ImageNet-256×256上的求解器,在应用于这些文本到图像模型时,也始终产生比传统求解器更好的图像。

此外,他们还分析了搜索得到的求解器参数。他们发现DDPM/VP和修正流模型的系数模式有所不同——DDPM/VP的系数更集中在对角线上,表明其采样路径更为曲折;而修正流模型则展现出更平坦的分布。时间步长方面,与DDPM/VP相比,修正流模型更关注噪声较大的区域,在开始阶段展现出较小的时间间隔。

五、这项研究的意义与局限性

这项研究的意义在于,它提供了一种方法,可以大大加速扩散模型的采样过程,而不需要重新训练模型。这就像是找到了一条捷径,让我们能够更快速地获得高质量的生成图像,从而降低了使用扩散模型的门槛。

研究的一个重要发现是,不同的扩散模型可能需要不同的求解器策略。这打破了"一刀切"的思维方式,提示我们应该为不同的模型量身定制求解方法。

当然,这项研究也存在一些局限性。研究人员在论文中指出,他们提出的方法在使用较大的CFG(条件引导尺度)值时表现不佳。这可能是由于当前朴素的求解器结构和搜索技术的限制。他们猜测,结合预测器-校正器求解器结构可能会增强数值稳定性,产生更好的图像。此外,在训练过程中加入CFG可能也会有所帮助。

六、未来的研究方向

虽然该研究团队已经取得了显著的进展,但仍有许多值得探索的方向。

首先,他们可以探索更复杂的求解器结构,如预测器-校正器框架,以提高大CFG值下的性能。这就像是在现有的导航系统基础上增加实时交通预测功能。

其次,他们可以尝试结合基于训练的方法和基于求解器的方法,创建混合加速系统。这就像是结合了卫星导航和本地知识的导航系统,能够更智能地规划路线。

最后,他们可以将研究扩展到更多类型的生成模型,如文本生成、音频生成等,探索可微分求解器搜索在更广泛领域的应用。

总的来说,这项研究为扩散模型的高效采样开辟了新的道路。随着计算资源的不断增长和扩散模型的广泛应用,这种加速技术将变得越来越重要,使生成AI更加贴近日常应用场景。

来源:至顶网一点号

相关推荐