1万2千字深度剖析:为何扩散模型会成为语言模型的未来?

360影视 国产动漫 2025-03-13 08:47 2

摘要:扩散模型属于生成模型(它们生成的数据与训练数据相似)。扩散模型的运作遵循两个简单步骤:首先,通过逐步添加高斯噪声来破坏训练数据;而训练过程则是通过逆向这个添加噪声的过程来恢复数据。一个训练良好的扩散模型能够从随机噪声中生成我们想要的任何内容。如果把噪声替换为嵌

原创 柏企 柏企阅文

扩散模型属于生成模型(它们生成的数据与训练数据相似)。扩散模型的运作遵循两个简单步骤:首先,通过逐步添加高斯噪声来破坏训练数据;而训练过程则是通过逆向这个添加噪声的过程来恢复数据。一个训练良好的扩散模型能够从随机噪声中生成我们想要的任何内容。如果把噪声替换为嵌入空间,你可能就能理解其中的原理了。

扩散模型有 4 个主要优点,使其在基于文本的生成领域具有很大的投资潜力:

高质量生成:扩散模型生成的输出质量和真实感都非常出色,在许多任务中都超越了以往的生成模型。通用性强:它们适用于多种数据模态,包括图像、音频、分子等。可控性高:扩散模型在生成过程中具有一定的可控性,用户可以根据特定需求或条件引导输出。而且,它们还可以在生成过程中中途停止,比传统设置更加灵活。反馈信号更佳:评估一个有缺陷的输出比评估一个不完整的输出要容易(给一段有错误或结构低效的代码提供反馈,比给逻辑缺失一半且结尾逻辑也不完整的代码提供反馈要容易)。这使得扩散大语言模型在生成过程中能够进行 “思考”,而不是像现在普遍的那样,仅在生成前(规划)或生成后(批评和迭代)进行思考。

Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models[2]

扩散语言模型中的思维链推理

从其设计原理可以明显看出,扩散模型的计算成本非常高。虽然有研究致力于降低成本,但这仍然是扩散模型的一大痛点。

就其本质而言,扩散模型在每次推理步骤中都会全面地审视数据点。在这个过程中,它们结合了两种优秀生成器的优点:

与生成对抗网络(GANs)这样的生成器相比,扩散模型可以分多个步骤生成输出,让我们能够更精细地控制(想想一次性完成复杂任务有多难)。与自回归模型(像 ChatGPT 这样的大语言模型使用的模型)相比,扩散模型具有更大的灵活性(我们可以在任何时候停止生成,并且得到的结果在一定程度上是可用的)。最后,添加噪声和去除噪声的过程类似于强大的数据增强,模型在这个过程中被迫建立特征之间更深层次的联系,从而确保更好的安全性。

生成式学习因其在数据分布建模方面的有效性而受到认可,在处理分布外实例方面具有内在优势,特别是在增强对抗攻击的鲁棒性方面。在这些方法中,利用强大扩散模型的扩散分类器已证明具有卓越的实证鲁棒性……实验结果表明,这些加噪扩散分类器(NDCs)具有卓越的可证明鲁棒性。值得注意的是,在对抗扰动的(\ell_2)范数小于 0.25 和 0.5 的情况下,使用单个现成的扩散模型,无需任何额外数据,我们在 CIFAR-10 数据集上分别实现了超过 80%和 70%的可证明鲁棒性。—— 摘自论文《Your Diffusion Model is Secretly a Certifiably Robust Classifier[3]》。

我们还可以将扩散模型与其他模型很好地结合,从而产生非常酷炫的应用(以及我们喜欢的备受赞誉的智能体架构)。

还有一个虽然显而易见但仍然重要的事实是,扩散模型的并行化能力更强,因为它们可以并行运行去噪链,而自回归模型必须等待最后一个令牌生成完成(不过,Spec Decoding 技术可能对此有不同的影响)。这使得像 Mercury 这样的模型速度大幅提升:

真正让基于扩散的大语言模型(dLLMs)脱颖而出的是它们的速度。即使是经过速度优化的自回归模型,每秒最多也只能处理 200 个令牌,而我们可以在商用 NVIDIA H100 上以每秒超过 1000 个令牌的速度运行 Mercury Coder,速度提升了 5 倍。与一些前沿模型相比,这些模型每秒处理的令牌数不到 50 个,我们的速度提升超过 20 倍。

基于扩散的大语言模型所实现的吞吐量,以前只有使用 Groq、Cerebras 和 SambaNova 等专用硬件才能达到。我们的算法改进与硬件加速相互独立,并且在更快的芯片上使用时,速度提升效果会更加显著。

一旦我们了解了这些背景知识,那么我们就必须进一步思考扩散模型未来的发展方向。下面是一些深入的思考,这些思考或许应该被陈列在博物馆中,以见证人类智慧的高度:

短期:降低成本并证明价值 扩散模型的计算成本很高。Mercury 展示的较少迭代次数和较高吞吐量并不能直接说明问题(因为扩散模型每次推理的成本要高得多,抵消了迭代次数减少带来的优势)。我们需要一些新的合理成本指标,才能公平地将 dLLMs 与自回归模型进行比较。 - 开发更好的成本指标(如浮点运算次数、并行化能力、延迟),并与自回归模型进行基准测试对比。 - 通过自适应步长缩减、可学习的停止准则和高效的调度来优化去噪过程,以减少计算开销。 - 完善用于评估全局连贯性、约束一致性和推理质量的评估指标,以便更好地评估模型性能。中期:突破硬令牌限制 两个特别重要的发展趋势: - 朝着连续语言空间发展,消除分词限制,基于概念实现对语言更 “稳健” 的理解,从而生成更自然的文本。 - 实现生成过程中的推理,让人工智能在最终确定输出之前进行模拟和优化,提高逻辑一致性和连贯性。长期:实现终身学习和自我进化的个性化大语言模型

dLLMs 可以模糊训练和推理之间的界限,实现实时模型自适应,使模型能够持续改进。这基于它们在生成过程中进行自适应的能力,最终也应该能让我们根据用户反馈和行为进行训练。 - 为每个用户个性化定制扩散空间,动态地优化人工智能的行为,以满足特定的需求和偏好。 - 在潜在空间中进行个性化定制/修改比微调等技术成本更低,这可以实现高度的个性化。我们在 IQIDIS(我们的法律人工智能初创公司)进行了测试,到目前为止,每一位使用过的律师都对此印象深刻。虽然还处于早期阶段,但如果能够合理利用潜在空间,其潜力巨大。

然而,在实现个性化/自学习方面,仍然存在两个主要问题:

遗忘旧信息:鉴于潜在空间的相互关联性,可能会产生很多连锁反应,就我目前所知,精确地遗忘特定信息似乎是不可能的(但也可能是我想象力不够)。注入新信息(尤其是在信息来源稀少的情况下):就模型本身而言,还没有找到很好的解决办法(可能需要使用像检索增强生成(RAG)这样的外部设置)。或许改进模型交互方式并提取外部保存的上下文信息就足够了,但我很想听听你的想法。大家有没有研究过或遇到过什么有趣的思路呢?

具体来说,我们设计了一种几何蛋白质 - 分子相互作用网络(PMINet),并使用结合亲和力信号对其进行预训练,以:(i)检索与目标具有高结合亲和力的配体分子作为参考,(ii)通过两种有效的增强机制,即检索增强和自我增强,整合关键的蛋白质 - 配体结合结构,以指导分子扩散生成。在CrossDocked2020数据集上的实证研究表明,IRDIFF可以生成具有更逼真3D结构的分子,并在保持适当分子特性的同时,实现对蛋白质靶点的最先进结合亲和力。

这些想法中有些可能不会成功。但即使只有一小部分想法得以实现 —— 比如连续语言空间、自我改进的推理能力和人工智能的终身学习,都可能重新定义我们所熟知的人工智能。这不仅仅是对大语言模型的渐进式升级。

与现有的代码模型相比,开发者更喜欢 Mercury 的代码补全功能。在 Copilot Arena 的基准测试中,Mercury Coder Mini 并列第二名,超过了像 GPT-4o Mini 和 Gemini-1.5-Flash 这样经过速度优化的模型,甚至超过了像 GPT-4o 这样更大的模型。同时,它也是速度最快的模型,比 GPT-4o Mini 快约 4 倍。—— 摘自 Mercury 发布的信息

正如前面所讨论的,扩散模型基于对输入进行添加噪声和去除噪声的过程。虽然具体细节有所不同,但我们可以将基于扩散的生成过程归结为两个步骤:

正向扩散:我们选取一个数据样本,比如一张图片,在每一步迭代中逐步添加少量高斯噪声。这个过程会逐渐破坏图片,直到它变成无法辨认的噪声。模型会学习每一步添加的噪声模式,这对反向过程至关重要。反向扩散:我们将第一步得到的纯噪声作为输入。模型预测正向过程中每一步添加的噪声并将其去除,这个过程会逐步对输入进行去噪,使其逐渐转变为有意义的数据样本。

既然存在其他技术,为什么还要使用扩散模型呢(尤其是考虑到其成本)?对于这个问题,我们可以从两个方面来回答。首先,我们将探讨扩散模型的实际优势,然后,推测其生成效果更好的原因。

从本质上讲,整个扩散过程为我们带来了 4 个方面的优势:

高质量生成:扩散模型生成的数据质量和真实感都非常出色,在许多任务中往往超越了以往的生成模型。这得益于它们能够通过迭代去噪过程细致地学习潜在的数据分布。从纯噪声逐渐稳定地优化为连贯的数据样本,这一过程使得输出结果高度逼真。最近的一篇论文表明,在各种基准测试中,扩散大语言模型在相同的浮点运算次数范围内,表现优于或与自回归基准模型相当。

自回归模型(ARMs)被广泛认为是大语言模型(LLMs)的基石。我们通过引入LLaDA来挑战这一观点,LLaDA是一种在预训练和监督微调(SFT)范式下从头开始训练的扩散模型。LLaDA通过正向数据掩码过程和反向过程对分布进行建模,由一个普通的Transformer参数化来预测掩码令牌。通过优化似然边界,它为概率推理提供了一种有原则的生成方法。在广泛的基准测试中,LLaDA展示出了强大的可扩展性,优于我们自建的自回归模型基线。值得注意的是,LLaDA 8B在上下文学习方面与强大的LLMs(如LLaMA3 8B)具有竞争力,并且在经过监督微调后,在多轮对话等案例研究中表现出令人印象深刻的指令遵循能力。此外,LLaDA解决了反转诅咒问题,在反转诗歌完成任务中超越了GPT-4o。我们的研究结果表明,扩散模型是自回归模型的可行且有前途的替代方案,挑战了上述关键大语言模型能力与自回归模型固有联系的假设。

通用性:扩散模型非常灵活,可广泛应用于多种数据模态,包括图像、音频、分子等。这种通用性源于模型操纵噪声的核心机制,该概念可应用于任何以数字形式表示的数据类型。无论是图像中的像素、声波中的振幅,还是分子中的原子,扩散模型都能学习生成和操纵它们。此外,扩散模型还可根据不同的应用场景进行调整,使其非常适合多模态设置。逐步控制:扩散模型的逐步生成过程让用户能够更好地控制最终输出。与传统的一次性生成输出的生成模型不同,扩散模型从噪声逐步优化生成数据样本。这不仅提高了透明度,还让我们能够在生成过程中进行干预,尝试新的方向。与其他工具结合用于智能体扩散模型更完整的逐步生成过程有助于更好地分析模型当前状态,从而实现更强大的思维模型和评估器。这可能就是为什么 Mercury 尽管在人才和模型训练方面投入的资金可能较少(而且关于基于扩散的文本生成器的信息也相对较少),但仍能与传统的行业巨头相媲美的原因。我认为很多人都忽视了这一点。这也是扩散引导语言建模(DGLM)在文本生成的属性控制方面(甚至是同时控制多个属性)优于其他技术的原因之一,因为属性控制器作用于完整生成的扩散引导(而不是不完整的自回归解码设置)。

与之对比,Anthropic 的宪法分类器旨在实现部分类似功能(防止模型被恶意利用)。它需要对完整文本(包括用户输入和模型生成的完整输出)使用分类器。

但这会显著降低你输出内容的属性控制和细微差别。

但为什么扩散模型能有这么好的效果呢?我觉得目前还没有太多正式的解释,所以让我们来进行一些理论探讨。

以撰写本文这样的复杂生成任务为例。像生成对抗网络(GANs)这样的传统生成器会一次性生成所有内容。随着任务复杂度的增加,这变得极其困难。想象一下,往画布上泼一次颜料就画出一幅细节丰富的场景有多难,这基本上就是 GAN 所做的事情。

自回归的扩展性更好,能让我们的模型处理更复杂的任务。由于自回归是逐步进行的,你还可以在中途停止生成或者改变方向。这是自回归相对于传统生成器的两个优势。然而,自回归模型也可能会陷入困境(我相信我们都有过这样的体验)。回到写文章的例子,在没有清晰规划的情况下,仅靠自动补全功能很难写出好文章。纯粹的自回归也会很快出现问题,因为我们无法回过头去编辑之前生成的内容。

扩散模型和自回归一样有逐步生成的优势,但又有所不同。因为在每个时间步我们都对整个输入进行去噪,扩散模型让我们能更好地结合上下文。与传统的大语言模型不同,它不会在错误的基础上继续生成,因为每次迭代都会进行去噪步骤。

将扩散大语言模型(dLLMs)与自回归(AR)模型进行比较并不像看起来那么简单。Mercury 发布的成果强调更高的吞吐量和更少的迭代次数,以此作为效率的标志,但这并不能说明全部情况。扩散模型每次推理的成本仍然高得多,这抵消了许多看似提高的速度优势。为了取得进展,我们需要更好的性能衡量方法,既要考虑原始计算成本,也要考虑实际可用性。

计算效率不仅仅关乎浮点运算次数(FLOPs)。虽然 FLOPs 能大致反映工作量,但它并不能告诉我们模型对现代硬件的利用程度。扩散模型具有巨大的并行化潜力,而这是自回归模型根本缺乏的(有趣的是,这就是早期大语言模型能击败循环神经网络的原因,因为大语言模型可以并行训练,而循环神经网络不行)。

由于 dLLMs 能一次性处理整个序列,理论上它们可以充分利用张量核心和高内存带宽。如果优化得当,在大规模部署中,扩散模型实际上可以更高效地运行,因为批量处理和并行推理在这种场景下至关重要。但这是个很大的“如果” 。研究界需要在实际场景中进行基准测试,以检验这种优势是否能转化为有意义的吞吐量提升。

延迟是 dLLMs 需要更好评估的另一个方面。目前,基准测试通常比较首个令牌生成时间,这对自回归模型有利,因为它们是按顺序输出单词的。但这并不能反映全貌。如果扩散模型生成完整、连贯草稿的速度比自回归模型生成前几个单词的速度还快呢?这可能会带来全新的交互模式,用户可以立即得到完整的回复进行评估,而不是看着人工智能实时逐字输出答案。用质量与时间的曲线来衡量这种权衡,比依赖单一时间点的延迟比较更好。

短期内最大的挑战是优化。自适应去噪调度可以根据内容的复杂程度调整细化步骤的数量,从而减少不必要的计算。这可以通过两种方式实现:

简单的输出需要较少的迭代次数,而复杂的推理任务则需要额外的处理。构建可学习的停止标准,即模型一旦达到高置信度阈值就停止生成,而不是遵循固定的步数。

这些技术可以在不牺牲质量的前提下显著降低成本。

除了效率,我们还需要更好的评估指标。目前,大多数基准测试都侧重于令牌级别的准确性,但扩散模型带来了全新的优势,这些优势并没有得到恰当的衡量。

全局连贯性:模型在长篇内容中保持逻辑一致性的能力,这是 dLLMs 可能真正具有优势的一个方面。与自回归模型不同,自回归模型在生成每个令牌时就确定下来,而扩散模型可以在生成过程中完善前面的部分,有可能产生内部更加一致的输出。约束对齐:遵循特定指令、严格的格式规则并保持事实准确性。扩散模型的迭代特性可能使其比自回归模型更擅长遵守复杂的约束,自回归模型经常会偏离轨道。

这些短期优化不仅仅是为了让扩散模型运行得更快。它们为更宏大的目标奠定了基础。如果我们能够准确量化成本效益的权衡,dLLMs 就不仅仅是自回归模型的一个有趣替代方案,我们将能够更好地分析何时/如何选择使用其中一种模型,或者如何将它们结合起来。

在这个阶段取得的突破,无论是在硬件利用、效率策略还是更好的评估指标方面,都将直接塑造下一代人工智能模型。

这是 dLLM 革命真正能够发力的地方。

我们可以让 dLLMs 在流畅、连续的潜在空间中运行,而不是使用 “硬令牌”。Meta 已经广泛讨论了这种做法的好处。

Large Concept Models: Language Modeling in a Sentence Representation Space[4]“大语言模型已经彻底改变了人工智能领域,并已成为许多任务的事实上的工具。目前大语言模型的成熟技术是在令牌级别处理输入和生成输出。这与人类的处理方式形成鲜明对比,人类在多个抽象层次上进行操作,远远超越单个单词,以分析信息并生成创造性内容。在本文中,我们尝试构建一种基于明确的高级语义表示进行操作的架构,我们将其命名为‘概念’。概念与语言和模态无关,代表流程中的更高级的想法或行动。因此,我们构建了一个‘大型概念模型’。在本研究中,为了证明可行性,我们假设一个概念对应一个句子,并使用现有的句子嵌入空间 SONAR,它支持多达 200 种语言的文本和语音模态。大型概念模型经过训练,在嵌入空间中执行自回归句子预测。我们探索了多种方法,即均方误差回归、基于扩散的生成变体,以及在量化的 SONAR 空间中运行的模型。这些探索使用了 16 亿参数的模型和大约 1300 亿令牌的训练数据。然后,我们将一种架构扩展到 70 亿参数的模型和大约 7700 亿令牌的训练数据。我们对几个生成任务进行了实验评估,即摘要生成和一个新的任务——摘要扩展。最后,我们展示了我们的模型在许多语言上展现出令人印象深刻的零样本泛化性能,优于相同规模的现有大语言模型。我们模型的训练代码是免费提供的。”

这不仅仅是一个技术细节,而是一种范式转变。我们正从将语言表示为离散符号序列,转向将其编码为丰富、微妙的意义图景。使用更柔和的决策边界可以实现更好的稳定性,减少突兀感,如果你的模型能够实现,就能提高性能:

稀疏MoE层(左)中的路由器学习将单个输入令牌分配给每个可用插槽,而在软MoE层(右)中,每个插槽是所有输入令牌的(不同)加权平均值的结果

在这个连续空间中,微妙的变化代表了令牌根本无法捕捉的细微差别。这可以使 dLLMs 变得极其强大,更不容易出错,更擅长理解释义,并且对各种写作风格的适应性更强。这个潜在空间可能是解锁更好概念理解的关键。dLLMs 不再将单词作为孤立的单元进行处理,而是可以操纵潜在的概念,在更深、更抽象的层面上理解意义。就像在图像生成中一样,这个连续空间允许无缝插值,以基于令牌的模型无法做到的方式融合想法、风格和概念。

真正改变游戏规则的是生成过程中的推理。我们已经多次提到这一点,所以在这里就不再过多重复。一旦我们有了良好的评估方法,就可以开始串联多个评分器、评估器和 “探索器”,它们可以在生成过程的特定步骤进行观察,并决定即时切换路径或重写计划。这将开启当前系统中不存在的新的灵活性水平。

一旦你开始在潜在空间中很好地表示概念,就可以实现当前环境中不存在的、令人惊叹的个性化程度(这可能就是为什么 Meta 如此大力推动基于潜在空间的推理)。

扩散大语言模型的真正潜力不仅仅在于更好的文本生成或推理。随着它们的成熟,它们可能会从根本上改变人工智能的学习和适应方式。目前训练和推理之间的界限,这是当今模型的一个决定性限制,可能会消失,从而产生通过交互不断进化的系统。

扩散模型特别适合这一点,因为它们不仅仅是逐步生成文本,还会对其进行修订和完善。与按顺序确定每个令牌的自回归模型不同,扩散模型可以重新处理其输出的前面部分,在生成过程中整合新信息(很抱歉,你可能已经听腻了我反复强调这一点,但这真的很重要)。这为无需昂贵的重新训练就能实时适应的人工智能打开了大门。

具有潜在扩散模型的高分辨率图像合成

High-Resolution Image Synthesis with Latent Diffusion Models[5]

这种适应性最直接的影响就是个性化。目前,调整人工智能的行为需要提示工程(重复繁琐)或微调(计算成本高且有过拟合风险)。扩散模型提供了一种更高效的替代方案,即修改潜在空间表示,而不是重新训练整个模型。这将使人工智能能够以低得多的计算开销形成特定用户的风格、偏好和推理方式。

自回归模型也可以做到这一点(最简单的方法是通过提示,但扩散模型在这方面的额外优势将使其实现更加严格和完整)。

来源:人工智能学家

相关推荐