舍弃自回归!国内团队打造纯扩散多模态大模型LLaDA-V
此次,团队将 LLaDA 拓展至多模态领域,推出了 LLaDA-V—— 集成了视觉指令微调的纯扩散多模态大语言模型(MLLM) 。这项工作标志着对当前以自回归为主流的多模态方法的一次重要突破,展示了扩散模型在多模态理解领域的巨大潜力。
此次,团队将 LLaDA 拓展至多模态领域,推出了 LLaDA-V—— 集成了视觉指令微调的纯扩散多模态大语言模型(MLLM) 。这项工作标志着对当前以自回归为主流的多模态方法的一次重要突破,展示了扩散模型在多模态理解领域的巨大潜力。
视觉上,机身明显的线条给人很硬朗的感觉,但配合圆角又不失和谐;背面采用流光丝缎闪砂工艺,不仅上手有磨砂质感,在阳光下还非常有质感,让高级感和优秀触感并存;
本文介绍的工作由中国人民大学高瓴人工智能学院李崇轩、文继荣教授团队与蚂蚁集团共同完成。游泽彬和聂燊是中国人民大学高瓴人工智能学院的博士生,导师为李崇轩副教授。该研究基于团队前期发布的、首个性能比肩 LLaMA 3 的 8B 扩散大语言模型 LLaDA。