摘要:近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。今天我们介绍的这个名叫LaViDa,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。
机器之心报道
编辑:Panda
近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联合处理视觉和文本信息的模型。今天我们介绍的这个名叫 LaViDa,继承了扩散语言模型高速且可控的优点,并在实验中取得了相当不错的表现。
现目前,几乎所有流行的 VLM 都是基于大型语言模型(LLM)构建的,而这些模型采用的范式是自回归(AR),即按照从左到右的顺序逐一生成 token。
在很多任务上,自回归模型都表现出色,不过缺点也仍然存在。首先,由于它们是按顺序生成,因此这个过程本质上难以并行化,从而导致推理速度缓慢。另外,由于它们是从左到右生成,因此难以处理需要双向上下文或结构约束的任务 —— 例如文本填空。
例如,生成一首每行都以特定音节开头的诗歌,或从预定义 JSON 格式的图像中提取结构化信息 —— 这些任务通常需要模型填充或协调整个序列中的内容。即使使用精心设计的提示词和演示,自回归模型仍然难以稳定地满足此类约束。
近段时间,离散的扩散模型(DM)开始崛起,甚至被许多人认为是自回归 LLM 的一种有力替代,比如我们曾报道过的首个 8B 扩散大语言模型 LLaDA、扩散推理模型 Dream 7B 以及首个商业级扩散 LLM Mercury。
不同于自回归 LLM,扩散模型是将文本生成视为在离散 token 上的扩散过程。会有一个前向过程逐渐将离散文本 token 序列退化(corrupt)为一个掩码 token 序列。在推理过程中,则是从一个掩码 token 序列开始,并通过一个学习到的反向过程逐渐将其转换为一个有意义的文本 token 序列。
相比于自回归 LLM,扩散模型具有多项理论优势,可直接解决自回归生成的局限性。
首先,自回归 LLM 的吞吐量是固定的 —— 每次生成一个 token;而扩散模型则可以通过调整扩散步骤的数量来灵活地控制速度与质量之间的平衡。此外,它们能够建模双向上下文,这使得它们非常适合文本填空等任务,从而实现更有效的约束生成和结构化的输出格式化 —— 这些功能在视觉-语言环境中尤其有价值,因为其输出可能需要遵循特定的模式。
基于这些观察和实践,LaViDa 诞生了,其全称为 Large Vision-Language Diffusion Model with Masking,即「带掩码的大型视觉-语言扩散模型」。
该模型来自加利福尼亚大学洛杉矶分校、松下、Adobe 和 Salesforce,算得上是首批基于扩散的 VLM 之一,我们之前还报道过的另外几个多模态的扩散语言模型可供对照:
比 Gemini Diffusion 更全能!首个多模态扩散大语言模型 MMaDA 发布,同时实现强推理与高可控性舍弃自回归!国内团队打造纯扩散多模态大模型 LLaDA-V,理解任务新 SOTA谷歌之后,英伟达入局扩散大语言模型,Fast-dLLM推理速度狂飙27.6倍简单来说,为了使预训练的扩散模型能够感知视觉输入,LaViDa 的做法是使用一个视觉编码器将视觉特征整合进扩散主干网络 —— 类似于 LLaVA 使用视觉输入增强大型语言模型 (LLM) 的方式。训练方法上,他们采用了以扩散为目标的两阶段训练流程:先进行预训练,然后进行监督微调。
下面来详细看看 LaViDa 的具体方法和实验表现。
LaViDa 是如何构建的?
LaViDa 的模型架构与 LLaVa 等常见的自回归视觉-语言模型(VLM)类似。它由视觉编码器和扩散语言模型组成。这两部分通过一个 MLP 投射网络连接。其整体设计如图 2 所示。
视觉编码器:给定输入图像 I 和文本提示词 P,首先将图像大小调整为 768²,并将其分成四个 384² 的不重叠视图,记为 I_{1:4}。另外,按照之前的相关研究,也将原始图像的大小调整为 384²,以获得第五个视图 I_5。
这五个视图分别由视觉编码器(SigLIP-400M)独立编码,每个视图产生 27² 个嵌入,记为 V_{1:5}。总的来算,每个图像会产生 3645 个嵌入。
为了减少序列长度以提高训练效率,该团队还会在每个视图上应用 2×2 平均池化,从而将嵌入减少到了每个视图 14² 个,即总共 980 个。
然后,这五个视图的嵌入会被展平并连接成一维序列,然后由投射网络处理,从而获得扩散语言模型的最终视觉上下文。此过程与自回归 LLM 的视觉编码过程相似,如图 2 底部所示。
扩散语言模型:这里的扩散语言模型是一个多层 Transformer,其架构与 LLM 类似。唯一的主要区别是:它的注意力掩码是非因果式的,并且它使用的建模目标是如下扩散语言建模目标,而不是自回归模型使用的下一个 token 预测。
下图展示了 LaViDa 的更多技术细节,而有关其训练算法和推理算法的更详细描述请参阅原论文。
LaViDa 的实验表现如何?
从高层面看,LaViDa 总体上采用了一种两阶段训练流程。
在预训练阶段(阶段 1),仅更新投射算子,从而让视觉嵌入与 DLM 的隐空间对齐。
在微调阶段(阶段 2),对所有组件进行端到端联合训练,以实现指令遵循。此外,该团队还对阶段 2 的模型进行了进一步微调,并得到了两个分别用于推理和文本填空任务的专用模型。
主要结果
评估使用了多种视觉-语言任务。表 1 报告了在视觉理解任务上,LaViDa 使用 LLaDA-8B(LaViDa-L)和 Dream-7B(LaViDa-D)作为语言主干网络的结果,另外还有一些对比模型的结果。
可以看到,在一般任务、推理、光学字符识别 (OCR) 和科学等类别的众多任务上,LaViDa 展现出极具竞争力的性能。
其中,在一般性的视觉-语言理解方面,LaViDa-L 在 MMMU 上取得了最高分 (43.3),优于所有同类模型。LaViDa-D 在该类别的多个基准测试中也排名第二。
在推理任务方面,这两个模型在数学密集型和基于空间的基准测试中均超越了规模相似的基线模型。
在科学方面,LaViDa 在 ScienceQA 上取得了最高分和第二高的成绩(分别为 81.4 分和 80.2 分),同时在基于复杂图表的基准 AI2D 上的表现与 Open-Llava-Next 相当。
最后,在 OCR 方面,LaViDa 表现还算不错,但落后于一些最新的自回归模型。该团队分析表示,这种差距主要是因为 LaViDa 使用了平均池化进行视觉 token 压缩,这会导致细粒度空间信息丢失。虽然这在计算预算方面是必要的权衡,但对于需要精确文本识别和布局理解的任务来说,这会带来困难。
整体来看,这些结果凸显了 LaViDa 的优势,表明基于扩散的方法颇具竞争力,可以与自回归模型一样 scale,同时在多种视觉-语言任务上取得稳健的表现。
推理蒸馏
为了提升 LaViDa 模型的推理能力,该团队使用从 VL-Rethinker-7B 蒸馏出的 1.92 万个 CoT 样本又进行第三阶段训练。最终,他们得到了一个推理模型 LaViDa-Reason,并在 MathVista、MathVerse 和 MathVision 上进行了评估,结果见表 2a。
在这些任务中,最大生成长度 L 设置为 1024。从结果可以看到,LaViDa-Reason 在所有基准测试中均优于 LaViDa,在最难的 MathVision 推理数据集上更是提升明显(相对提升了 18%)。
文本填空
LaViDa 为文本生成提供了强大的可控性,尤其是在文本填空方面。
给定一份由 L 个 token 构成的草稿,其中包含 L_M 个掩码,跳转到时间步骤 t = L_M / L 并运行标准推理直到 t = 0。这会直接将 L_M 个掩码替换为 L_M 个 token。
然而,在实践中,补全所需的 token 数量可能会更少 —— 例如,There is a [M][M][M][M] in the image 可能会变成 dog 或 traffic light。
为了支持长度可变的补全,该团队使用阶段 2 数据一个 20% 的子集进行了额外的阶段 3 训练,并将该模型命名为 LaViDa-FIM。
在训练期间,他们会在文本中间插入随机长度的 [S]...[S][FIM] 序列。在推理时,则将 [FIM] 附加到已遮掩的片段(例如 [M][M][M][M][FIM])以为灵活的终止提供信号。然后,该模型可以生成类似 [dog][S][S][S][FIM] 或 [traffic][light][S][S][FIM] 形式的补全。
虽然 FIM 目标通常是在语言任务(例如代码补全)的语境中讨论,但它们与多模态应用同样相关。
图 4a 展示了有约束诗歌生成的定性结果,其中模型需要生成一首描述图像的诗歌,并且每行要以特定的音节开头。与自回归模型不同,LaViDa 和 LaViDa-FIM 都成功完成了任务。值得注意的是,LaViDa-FIM 会动态调整每行的 token 数量。
表 2b 则展示了 100 个样本的定量结果:这两个 LaViDa 变体均实现了 100% 的约束满足率,而对比的自回归模型则均在 50% 以下。
速度与质量的权衡
通过控制离散化步数 K,LaViDa 提供了一种便捷的方法来实现速度与质量的权衡。
基于 COCO 2017 val 数据集的 500 张图像,该团队比较了不同 K 值下的图像描述性能。其中 K ∈ {32, 24, 16, 8},等价地 NFE∈ {100%, 75%, 50%, 25%}。
图 4b 报告了在单个 A5000 GPU 上测得的每张图像的平均延迟和 CIDEr 分数。
当 NFE=100% 时,LaViDa 的 CIDEr 得分高于自回归基线,但速度略慢。当 NFE=75% 和 NFE=50% 时,LaViDa 的速度比自回归基线更快,并且质量更好。当 NFE=25% 时,速度明显更快,但性能略逊一筹。这表明 LaViDa 可以根据应用需求灵活调整其推理速度,允许用户根据具体需求在生成延迟和输出质量之间进行权衡。
此外,该团队还研究了 KV 缓存的影响和噪声调度,并进行了消融研究,详见原论文。
来源:机器之心Pro一点号