2025多模态好发论文的方向!

360影视 欧美动漫 2025-05-27 11:26 2

摘要:关于它的研究,近来也发生了诸多变化:跨界缝合成为新风向,比如用多模态模型分析财报文本+管理层表情+市场指标预测企业价值;研究视角也从静态分析,走向动态推理;模型的可解释性、结合垂直领域开发专属大模型等也成为重点!

作为AI领域的大势所趋,多模态可谓是火的一塌糊涂,在各大顶会都是霸榜的存在!

关于它的研究,近来也发生了诸多变化:跨界缝合成为新风向,比如用多模态模型分析财报文本+管理层表情+市场指标预测企业价值;研究视角也从静态分析,走向动态推理;模型的可解释性、结合垂直领域开发专属大模型等也成为重点!

为让大家能够紧跟领域前沿,早点发出自己的顶会,我给大家梳理了目前还好出创新点的7大方向:多模态大模型、多模态预训练、多模态生成、多模态感知、多模态推理、多模态数据高效学习、多模态可解释。每个方向还给大家准备了代表性论文、最新论文和源码,共100篇!

免费获取全部论文合集及项目代码

1.多模态大模型 论文:Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation 内容

该论文提出了一种名为MLLM-MSR的模型,旨在利用多模态大语言模型(MLLMs)来增强多模态序列推荐系统,介绍了大语言模型(LLMs)在推荐系统中的应用进展,并指出了现有研究主要集中在将用户行为日志转换为文本提示以利用LLMs进行推荐任务。

2.多模态预训练 论文:Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding 内容

该论文介绍了一种名为PIIP的新型网络架构,旨在提高计算机视觉任务中多尺度特征提取的效率,通过使用不同参数规模的预训练模型来处理不同分辨率的图像,其中高分辨率图像由参数较少的网络分支处理,以平衡计算成本和性能。

3.多模态生成 论文:GRAPHGPT-O: Synergistic Multimodal Comprehension and Generation on Graphs CVPR25 内容

该论文提出了GRAPHGPT-O,这是一个针对多模态属性图(MMAGs)的多模态大型语言模型(MLLMs),用于理解和生成图中的文本和图像内容。该模型通过个性化PageRank采样方法提取相关子图信息,解决了图规模爆炸问题。

免费获取全部论文合集及项目代码

4.多模态数据高效学习 论文:Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning 内容

该论文提出了一种名为MTV的方法,旨在解决多模态领域中大型多模态模型(LMMs)在多示例上下文学习中的限制问题,通过在LMM的注意力头中压缩多示例上下文为紧凑的隐式表示,从而克服了这一限制。

5.多模态可解释 论文:SNIFFER: Multimodal Large Language Model for Explainable Out-of-Context Misinformation Detection 内容

该论文介绍了一种名为SNIFFER的新型多模态大型语言模型,专门用于检测和解释“情境外”虚假信息。SNIFFER通过两阶段指令调优在InstructBLIP基础上进行优化,通过检索和工具使用增强外部知识,不仅检测文本与图像之间的一致性,还利用外部知识进行上下文验证。

6.多模态感知 论文:Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities 内容

本文提出了一种名为CorrKD的框架,用于处理多模态情感分析(MSA)任务中模态不完整的情况。该框架通过样本级对比蒸馏机制、类别引导的原型蒸馏机制和响应解耦的一致性蒸馏策略,从教师网络向学生网络传递包含跨样本相关性的全面知识,以重建缺失的语义信息。

7.多模态推理 论文:Mind with Eyes: from Language Reasoning to Multimodal Reasoning 内容

本文提供了一个关于多模态推理方法的系统性综述,将这些方法分为两个层次:以语言为中心的多模态推理和协作式多模态推理,分析了这些方法的技术演变,讨论了其固有挑战,并介绍了评估多模态推理性能的关键基准任务和评估指标。

免费获取全部论文合集及项目代码

来源:湖南教育网资讯

相关推荐