舍弃自回归!国内团队纯扩散多模态大模型LLaDA-V,理解任务新SOTA

360影视 欧美动漫 2025-05-27 11:36 2

摘要:本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA。

本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA。

此次,团队将 LLaDA 拓展至多模态领域,推出了 LLaDA-V—— 集成了视觉指令微调的纯扩散多模态大语言模型(MLLM)。这项工作标志着对当前以自回归为主流的多模态方法的一次重要突破,展示了扩散模型在多模态理解领域的巨大潜力。

近年来,多模态大语言模型(MLLMs)在处理图像、音频、视频等多种输入模态方面取得了显著进展。然而,现有的大多数方法依赖自回归模型。虽然有研究尝试将扩散模型引入 MLLMs,但往往采用混合架构(自回归 + 扩散)或者受限于语言建模能力,导致性能不佳。

继 LLaDA 成功证明扩散模型在纯语言任务上能与自回归模型(如 LLaMA3-8B)竞争后,一个关键问题随之而来:扩散语言模型能否在多模态任务中也达到与自回归模型相当的性能?LLaDA-V 正是对这一问题的有力回答。

研究团队将 LLaDA 作为语言基座,通过引入视觉编码器(SigLIP 2)和 MLP 连接器,将视觉特征投影到语言嵌入空间,实现了有效的多模态对齐。LLaDA-V 在训练和采样阶段均采用离散扩散机制,摆脱了自回归范式。

论文标题:LLaDA-V: Large Language Diffusion Models with Visual Instruction Tuning论文链接:https://arxiv.org/abs/2505.16933项目地址:https://ml-gsai.github.io/LLaDA-V-demo/代码仓库:https://github.com/ML-GSAI/LLaDA-V

团队预计近期开源训练推理代码以及 LLaDA-V 权重。

性能亮点

数据可扩展性强,多项基准表现优异

大规模的实验评估揭示了 LLaDA-V 的多个引人注目的特性:

1. 卓越的数据可扩展性与竞争力。团队将 LLaDA-V 与使用 LLaMA3-8B 作为语言基座、但其他部分完全相同的自回归基线 LLaMA3-V 进行了对比。

结果显示,LLaDA-V 展现出更强的数据可扩展性,特别是在多学科知识(如 MMMU)基准上。令人印象深刻的是,尽管 LLaDA-8B 在纯文本任务上略逊于 LLaMA3-8B,但 LLaDA-V 在 11 个 多模态任务中超越了 LLaMA3-V。这表明扩散架构在多模态任务上面具备一定的优势。

2. 纯扩散与混合架构中的 SOTA:与现有的混合自回归 - 扩散模型(如 MetaMorph, Show-o)和纯扩散模型相比,LLaDA-V 在多模态理解任务上达到了当前最佳(SOTA)性能。这证明了基于强大语言扩散模型的 MLLM 架构的有效性。

3. 缩小与顶尖自回归 MLLM 的差距:尽管 LLaDA 的语言能力明显弱于 Qwen2-7B,但 LLaDA-V 在某些基准(如 MMStar)上显著缩小了与强大的 Qwen2-VL 的性能差距,达到了相当的水平(60.1 vs. 60.7)。这进一步印证了扩散模型在多模态领域的潜力。

下图是 LLaDA-V 同用户进行交流的场景。

LLaDA-V 准确描述出了一幅宁静而富有层次感的瑞士阿尔卑斯山景:一条绿色小路蜿蜒延伸,一位行人沿路行走,远处是山谷中的白色教堂和被薄雾环绕的巍峨群山,蓝天白云为画面增添了宁静氛围,整体构图清晰,意境优美。

核心方法

LLaDA-V 的核心在于将视觉指令微调框架与 LLaDA 的掩码扩散机制相结合。下图展示了 LLaDA-V 的训练和推理过程:

架构: 采用经典的「视觉编码器 + MLP 投影器 + 语言模型」架构。视觉编码器(SigLIP 2)提取图像特征,MLP 投影器将其映射到 LLaDA 的嵌入空间。LLaDA 语言塔则负责处理融合后的多模态输入并生成回复。特别地,LLaDA-V 采用了双向注意力机制,允许模型在预测时全面理解对话上下文,这在消融实验中被证明略优于对话因果注意力机制。

训练目标: LLaDA-V 扩展了 LLaDA 的训练目标,以支持多轮多模态对话。其核心思想是在训练时保持图像特征和用户提示(Prompt),仅对模型的回复(Response)进行随机掩码,训练目标仅对被掩码部分计算交叉熵损失。

推理过程: LLaDA-V 的生成过程并非自回归式的逐词预测,而是通过扩散模型的反向去噪过程。从一个完全被掩码的回复开始,模型在多个步骤中迭代地预测被掩码的词元,逐步恢复出完整的回复。研究采用了 LLaDA 的低置信度重掩码策略,优先保留高置信度的预测,提升了生成质量。

总结与展望

LLaDA-V 成功地将视觉指令微调与掩码扩散模型相结合,证明了扩散模型不仅能在语言任务上与自回归模型一较高下,在多模态理解领域同样展现出强大的竞争力和独特的优势,尤其是在数据可扩展性方面。

这项工作不仅为 MLLM 的发展开辟了一条新的技术路径,也挑战了多模态智能必须依赖自回归模型的传统观念。随着语言扩散模型的不断发展,我们有理由相信,基于扩散的 MLLM 将在未来扮演更重要的角色,进一步推动多模态 AI 的边界。

来源:机器之心Pro一点号

相关推荐