Semi-IIN:用于多模态情绪分析的半监督模态内交互学习网络

摘要:在当今的数字时代,社交媒体平台的飞速发展催生了大量多模态数据,包括文本、图像和音频。这些数据不仅丰富了人们的交流方式,也提供了宝贵的情感线索,从而让机器能够更好地理解和预测人类的情感状态。多模态情感分析(MSA)因此成为了一个备受关注的研究领域,能够应用于情感

在当今的数字时代,社交媒体平台的飞速发展催生了大量多模态数据,包括文本、图像和音频。这些数据不仅丰富了人们的交流方式,也提供了宝贵的情感线索,从而让机器能够更好地理解和预测人类的情感状态。多模态情感分析(MSA)因此成为了一个备受关注的研究领域,能够应用于情感计算、人机交互、社交媒体监测等众多场景。

然而,现有的多模态情感分析方法仍面临着一些挑战。首先是标注数据的成本高昂,尤其是在涉及大量图像和音频数据时,人工标注不仅费时费力,而且容易出现标签歧义,影响数据的质量和模型的训练效果。其次,不同模态之间的交互与融合复杂,如何有效选择和利用这些交互信息,成为提高情感分析准确性的关键难题。

12 月 16 日,全球领先的学术平台arXiv 刊登的论文《Semi-IIN: Semi-supervised Intra-inter modal Interaction Learning Network for Multimodal Sentiment Analysis》提出了一种创新的方法——Semi-IIN(半监督模态内交互学习网络)。这项研究通过结合半监督学习和动态选择机制,目标是解决高标注成本和标签歧义问题,同时优化多模态交互信息的选择与利用,从而提高情感分析的精确度。

研究团队由华南理工大学的Jinhao Lin, Yifei Wang, Yanwu Xu, Qi Liu组成,他们在多模态情感分析领域积累了丰富的研究经验。此次研究得到了中国国家自然科学基金、广州市基础与应用基础研究基金、华南理工大学未来技术学院太湖创新基金以及广东省科技厅的资助。这些支持为研究团队提供了坚实的基础,保证了项目的顺利进行和研究成果的高质量产出。

半监督情感分析

在情感分析中,监督学习方法通常被广泛应用。这些方法依赖于大量标记数据进行模型训练,通过学习标记数据中的情感特征,来预测未标记数据的情感状态。这些方法在获取标记数据充足的情况下,能够取得较高的准确率。然而,标记数据的获取往往面临高成本和耗时费力的问题,尤其是在多模态情感分析中,需要对文本、图像和音频等多种模态的数据进行详细标注。此外,标记数据中还可能存在标签歧义,影响模型的训练效果和预测精度。

图1:动态控制模态内和模态间交互信息的重要性。箭头表示注意力权重,而蓝色和橙色箭头分别表示“语言建模中单词之间”和“从视觉到文本模式”的注意力权重分布。例如,在语义相似性层面上,单词“场景”和“那个”指的是同一个概念,导致它们之间的注意力得分更高(箭头:“场景”到“那个”)。在任务导向的层面上,单词“kind”是一个关键的情感词,因此具有更高的自我关注得分(箭头:“kind“to”kind“)。

为了克服监督学习方法的局限性,半监督学习技术应运而生。半监督学习通过结合少量标记数据和大量未标记数据进行模型训练,在降低标注成本的同时,提升模型的泛化能力和预测准确性。具体而言,半监督学习利用未标记数据中蕴含的潜在信息,通过伪标签策略生成可靠的伪样本,弥补标记数据的不足。此外,半监督学习还能够动态适应数据中的变化,更好地捕捉情感特征,从而在实际应用中表现出色。

在这篇论文中,研究团队提出了Semi-IIN这一创新方法,用于多模态情感分析中的半监督学习。该方法通过结合一致性伪标签策略和自训练方法,实现了动态选择交互方式,提高了情感分析的准确性。具体来说,Semi-IIN集成了掩蔽注意力和门控机制,在独立捕捉模态内和模态间交互信息后,能够进行动态选择,从而有效过滤无关信息,并突出情感相关特征。

此外,Semi-IIN采用自训练方法,通过创建伪标签来充分利用未标记数据中的知识。自训练方法利用top-k置信度过滤策略,生成可靠的伪标签,进而通过重新训练模型,提取情感相关特征。在两个公共数据集MOSI和MOSEI上的实验结果显示,Semi-IIN在多个指标上建立了新的最先进水平,验证了其在半监督情感分析中的有效性和优势。

多模态交互学习

在多模态情感分析的研究中,交互学习方法的有效性直接影响情感识别的精度。现有的多模态交互学习方法主要可以分为语句级交互和标记级交互两大类。

语句级交互学习方法关注的是单模态表示的独立编码和随后进行的组合。这些方法通常先分别编码每个模态的特征,然后在高层次进行融合。例如,通过施加约束、分离模态、分析各模态之间的相关性,或捕捉它们之间的关系,实现单模态、双模态或三模态的交互。这种方法的优势在于能够较为清晰地分析每种模态的独立贡献,并在融合过程中提高情感识别的准确性。

相较之下,标记级交互学习则更加细化,关注于基于视觉和声学模态的位移生成,以增强交互学习。标记级交互学习方法通过生成基于不同模态的位移,来模拟各模态之间的交互信息。这种方法不仅提高了各模态之间的细粒度交互,还能够捕捉到更多的情感细节,从而提高情感分析的精确度。

研究团队提出的IntraMA(模态内掩蔽注意力)和InterMA(模态间掩蔽注意力)机制,创新性地捕捉了模态内和模态间的交互信息。IntraMA侧重于在单个模态内捕捉关键的情感线索,过滤掉无关的信息。例如,在文本模态中,它可以集中注意力于关键情感词汇,而忽略其他噪音词汇。InterMA则专注于不同模态之间的交互,强化各模态之间的情感信号传递。例如,在视觉和文本模态之间,它可以关注于含有情感信息的图像帧和相应的文字描述,从而提高整体情感分析的准确性。

这两种机制通过独立学习和动态选择信息,有效地提高了情感特征的捕捉和融合效率。实验结果表明,IntraMA和InterMA能够显著提升多模态情感分析的性能,为进一步的发展提供了新的思路。

方法

研究团队提出了一个名为Semi-IIN的新型半监督模态内交互学习网络,用于多模态情感分析。该方法通过结合多个预训练模型、一维卷积神经网络以及创新的IntraMA和InterMA机制,有效捕捉和利用多模态交互信息,提高了情感分析的准确性。

图2 : Semi-IIN的总体架构。

利用预训练模型RoBERTa、Fabnet和HuBERT捕捉文本、视觉和声学模态的特征

首先,为了提取不同模态的情感特征,研究团队采用了多个预训练模型。文本模态使用了24层的RoBERTa模型,该模型在大规模文本数据上进行预训练,能够捕捉丰富的词汇特征。视觉模态使用了Fabnet模型,预训练在大量图像数据上,能够提取图像中的基本情感特征。而声学模态则使用了HuBERT模型,该模型在大量语音数据上进行预训练,能够提取初始的声学向量表示。具体公式如下:

通过一维卷积神经网络提取情感相关特征

在提取了各模态的初始特征后,研究团队利用一维卷积神经网络(Conv1D)进一步提取情感相关特征。这种方法通过不同大小的卷积核,能够捕捉到每种数据类型中的情感信息。具体公式如下:

通过一维卷积网络,得到的特征向量。

IntraMA和InterMA机制捕捉模态内和模态间的交互信息

为了有效捕捉模态内和模态间的交互信息,研究团队设计了IntraMA(模态内掩蔽注意力)和InterMA(模态间掩蔽注意力)机制。IntraMA专注于在每个模态内部捕捉关键的情感线索,过滤掉无关的信息。而InterMA则关注于不同模态之间的情感信号传递,从而增强整体情感预测的准确性。

IntraMA和InterMA的具体公式如下:

然后,IntraMA和InterMA通过添加各自的掩蔽矩阵,与传统的全局注意力机制结合,以提取关键情感线索。

通过IntraMA和InterMA机制,分别构建了IntraMAU(模态内掩蔽注意力单元)和InterMAU(模态间掩蔽注意力单元),进一步捕捉和融合多模态情感特征。

动态门控机制确定模态特定和模态互补知识的传递比例

为了更好地利用模态特定和模态互补的知识,研究团队设计了动态门控机制,通过动态调整各模态之间的信息传递比例,优化情感预测的结果。具体公式如下:

通过门控机制,模型能够动态选择和过滤不同模态之间的交互信息,从而实现更为准确的情感分析。

图3 : InterMA(顶部)和IntraMA(底部)的实现。

综上所述,Semi-IIN通过结合多种预训练模型、一维卷积神经网络以及创新的IntraMA和InterMA机制,有效捕捉和利用多模态交互信息。动态门控机制进一步优化了各模态之间的信息传递比例,提高了情感分析的准确性和鲁棒性。该方法在多个公共数据集上的实验结果验证了其有效性和先进性,为多模态情感分析领域提供了新的研究方向和技术支持。

实验结果

研究团队对提出的Semi-IIN模型在两个广泛使用的多模态情感分析数据集CMU-MOSI和CMU-MOSEI上进行了深入的实验分析。这些实验结果不仅展示了Semi-IIN在多个指标上的显著优势,还验证了半监督学习情景下的模型性能提升,以及门控融合方法在处理模态特定和模态通用信息时的效果。

图4:MOSI数据集上不同比例标记样本的结果。

在CMU-MOSI和CMU-MOSEI数据集上的实验结果

CMU-MOSI数据集包含了2199个视频片段,每个片段都标注了情感强度评分,范围从-3到+3,用于表示情感表达的强度。CMU-MOSEI数据集则是CMU-MOSI的增强版本,包含了22856个视频片段,每个片段均标注了情感和情绪。

在这些数据集上,研究团队对Semi-IIN模型进行了评估,并与现有的多模态情感分析方法进行了对比。实验结果显示,Semi-IIN在多个指标上都表现出了优越性。例如,在CMU-MOSI数据集中,Semi-IIN在平均绝对误差(MAE)、皮尔逊相关系数(Corr)和二分类准确率(Acc-2)等指标上均超过了当前最先进的方法。具体而言,Semi-IIN的MAE比现有方法低0.016,Corr高0.017,显示了更好的情感预测精度。在CMU-MOSEI数据集中,Semi-IIN的MAE比现有方法低0.024,准确率高出0.45%,进一步验证了其在大规模数据集上的有效性。

图5:两个数据集上不同嵌入方式的比较。左:MOSEI数据集。右图:MOSI数据集。SMINfully:之前的半监督SOTA方法(在完全监督训练下)。我们没有硕士学位:没有硕士学位的半IIN在全面监督下接受培训。我们完全:半IIN与MA是在全面监督下进行培训的。

半监督学习情景下的显著进展

除了在全监督学习情景下的表现,研究团队还在半监督学习情景下对Semi-IIN进行了测试。半监督学习方法通过结合标记数据和未标记数据,能够在减少标记数据依赖的同时,提高模型的泛化能力和预测准确性。在实验中,研究团队采用了一致性伪标签策略,通过自训练方法生成可靠的伪样本,并通过重新训练模型来提取情感相关特征。

实验结果显示,即使在标记样本较少的情况下,Semi-IIN依然能够在半监督学习情景下显示出显著的进展。例如,当仅使用一部分标记数据时,Semi-IIN依然能够显著提高情感预测的准确性,显示了其在实际应用中的潜力。这种性能的提升主要得益于Semi-IIN在处理未标记数据时的高效伪标签生成和自训练方法。

门控融合方法在处理模态特定和模态通用信息时的效果

在多模态情感分析中,如何有效地融合不同模态的信息是一个关键问题。传统的方法往往采用简单的加权平均或拼接方法进行融合,但这些方法容易引入噪声,影响情感预测的准确性。为了解决这一问题,研究团队在Semi-IIN中引入了动态门控融合方法,通过动态调整各模态之间的信息传递比例,优化情感预测的结果。

实验结果表明,门控融合方法在处理模态特定和模态通用信息时表现出了显著的效果。例如,在处理视觉和文本模态的交互时,门控融合方法能够有效过滤掉不相关的视觉信息,增强文本模态中的情感信号,提升了整体的情感预测精度。相比于传统的融合方法,动态门控融合方法在多个实验指标上均显示出更优的性能,验证了其在多模态情感分析中的适用性和有效性。

定性分析

在这篇论文中,研究团队通过详细的案例研究和可视化分析,验证了动态选择有效交互的重要性,以及IntraMA和InterMA机制在多模态情感分析中的应用效果。

案例研究:验证动态选择有效交互的重要性

为了验证动态选择有效交互的重要性,研究团队选取了两个实际案例进行分析。在第一个案例中,视觉和声学模态包含了诸如平静的面部表情和无情感的语调等无关的情感信号。因此,模态间的交互分支倾向于将说话者的情感感知为中性。而模态内的交互分支则通过忽略这些无用的跨模态信息流,提供了更为准确的情感预测。这个案例表明,模态内交互在某些情况下能够更准确地捕捉情感特征。

图6 : Semi-IIN的案例研究。“Only Intra”和“Only Inter”分别是指堆叠的IntraMAU和InterMAU预测。

在第二个案例中,模态内的交互分支受到主要词汇模式的影响,导致情感评估不准确。相反,模态间的交互分支充分利用了包含丰富情感线索的视觉模态,增强了文本和声学模态的情感信息,从而实现了准确的情感极性预测。这一案例显示了模态间交互在整合多模态信息方面的优势。

通过这两个案例,研究团队证明了动态选择有效交互的重要性。在不同的情景下,合理选择模态内或模态间的交互方式,能够显著提高情感分析的准确性。

IntraMA和InterMA机制的可视化结果

为了进一步展示IntraMA和InterMA机制的效果,研究团队对这些机制的可视化结果进行了详细分析。在一个示例视频中,研究团队展示了说话者的情感是积极的。通过可视化结果,发现InterMA机制更多地关注含有情感内容的重要图像帧,而不是传统全局注意力机制那样关注所有帧。例如,InterMA能够自动忽略那些中性表情的图像帧,而集中注意力于那些带有丰富情感线索的图像。

图7:IntraMA和InterMA机制的可视化。

此外,IntraMA机制通过赋予与情感无关的词汇较低的注意力,减轻了这些词汇对情感极性判断的负面影响。例如,对于像“没去”这样的词汇,IntraMA机制分配了更少的注意力,从而避免了传统全局注意力可能产生的错误情感极性判断。这表明,IntraMA机制能够有效过滤掉不必要的信息,增强情感相关特征的提取。

这些可视化结果验证了IntraMA和InterMA机制在多模态情感分析中的有效性。通过利用不同模态的特定和互补知识,这些机制能够显著提高情感分析的准确性,减少噪声干扰,从而提供更为可靠的情感预测结果。

结论与未来工作

研究团队通过提出Semi-IIN这一新型半监督模态内交互学习网络,为多模态情感分析提供了创新的解决方案。Semi-IIN的创新之处在于结合了掩蔽注意力机制、门控机制和自训练方法,从而在有效利用标记数据的同时,充分挖掘未标记数据中的情感信息。具体来说,IntraMA和InterMA机制分别捕捉模态内和模态间的交互信息,动态选择交互方式,过滤掉无关信息,提升情感特征的提取和融合效率。结合动态门控机制,Semi-IIN实现了模态特定和模态互补知识的优化传递,提高了整体情感预测的准确性。

实验结果显示,Semi-IIN在CMU-MOSI和CMU-MOSEI等公共数据集上的多个指标上均表现优越,验证了其在多模态情感分析中的有效性和鲁棒性。无论是在全监督还是半监督学习情景下,Semi-IIN都展现出了显著的性能提升,尤其在处理大规模未标记数据时,显示了强大的泛化能力和预测准确性。

尽管Semi-IIN在多模态情感分析中取得了显著成果,但仍有一些潜在的改进方向和研究领域值得进一步探索。

当前的研究主要集中在单一语言环境下的多模态情感分析,未来的研究可以扩展到多语言情境,开发适用于多语言多模态情感分析的半监督模态内外交互学习网络。例如,针对西班牙语、法语和德语等不同语言的数据集进行实验和优化,提升模型在多语言环境下的适用性和普遍性。

提升模型的可解释性也是未来的重要研究方向,虽然Semi-IIN通过掩蔽注意力和门控机制提高了情感预测的准确性,但这些机制的内部工作原理和决策过程仍需要进一步解释和展示。开发可解释的AI模型,能够帮助研究人员和用户更好地理解模型的行为和输出,提高模型在实际应用中的信任度和透明性。

此外,结合其他前沿技术如迁移学习、对比学习和图神经网络等,进一步提升多模态情感分析的性能和效果。通过跨领域知识的迁移和不同模态信息的对比学习,可以更好地捕捉情感特征,优化模型的表现。

最后,探索Semi-IIN在更多实际应用场景中的潜力,例如人机交互、虚拟助手、社交媒体监测等。这些应用不仅能够验证模型在实际环境中的效果,还能推动多模态情感分析技术的广泛应用和发展。(END)

参考资料:https://arxiv.org/abs/2412.09784

波动世界(PoppleWorld)是噬元兽数字容器的一款AI应用,基于意识科学和情绪价值的理论基础,通过AI技术驱动帮助用户进行情绪管理的工具和传递情绪价值的社交产品,波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

来源:雅雯教育分享

相关推荐