摘要:锚点式多模态嵌入与语义对齐策略相互配合,有效推动了多模态意图识别任务的性能提升。实验结果显示,该模型不仅在主流数据集上取得了领先表现,还能在如越界识别和噪声干扰等复杂环境下展现出强泛化性和稳健性。未来研究可进一步拓展其在跨语言意图识别及低资源条件下的应用潜力。
在浙大研究院&清华大学联合推出的A-MESS框架
中,锚点式多模态嵌入与语义对齐策略相互配合,有效推动了多模态意图识别任务的性能提升。实验结果显示,该模型不仅在主流数据集上取得了领先表现,还能在如越界识别和噪声干扰等复杂环境下展现出强泛化性和稳健性。未来研究可进一步拓展其在跨语言意图识别及低资源条件下的应用潜力。在自然语言理解领域,多模态意图识别(MIR)任务用于基于文本、视觉和听觉信息,在目标驱动的语境下对意图进行分类,已被认为是识别复杂人类行为意图的关键要素。尤其在AI智能体的应用中,例如当用户需要指挥AI智能体执行特定任务时,只有正确理解用户指令背后的意图,AI智能体才能良好完成任务。相比仅依赖单一数据类型的方法,使用多模态数据能提供更丰富的信息基础,从而提高复杂意图类别识别的准确性。
在该领域,已有研究从真实场景中收集多模态数据,构建意图识别数据集,为MIR研究做出重要贡献。当前的方法在MIR任务中表现优异,但仍有许多未被充分探索的表征策略,例如标签与多模态嵌入之间的语义关联、多模态信息冗余消除策略等,这些也带来了显著挑战。我们将其总结为MIR任务的两大关键挑战:
模态干扰信息过滤难题:作为以文本为中心的任务,当使用音频和视觉模态作为辅助信号时,这些信号的大部分成分可能对表征产生干扰,因此如何过滤破坏性信息并保留表征的关键成分成为首要挑战。
语义空间失配问题:需要开发更高效的学习策略,以优化整个MIR算法架构,并增强三种模态聚合后的联合表征能力。
为了缓解模态干扰信息,我们尝试从辅助信号(音频、视觉)和文本信号中识别关键成分,并将其称为“锚点”(anchors),同时过滤无关信息。通过融合和交互这些“锚点”,我们能够有效应对这一挑战。
应对语义空间失配问题,我们尝试将多模态表征与意图导向的语义信息同步对齐。我们认为,这能够将这些表征映射到更合理的语义空间,从而更好地优化整个学习过程。
基于上述思路,本文提出了一种新框架:基于锚点的语义同步多模态嵌入(A-MESS),如图2所示。本框架利用从音频和视频模态提取的联合锚点嵌入表征来增强文本表征,随后将增强后的文本嵌入进一步整合到多模态编码器中,与现有方法的区别如图1。编码后的表征再与大型语言模型(LLM)基于提示标签生成的多种解释进行语义同步,采用三元组对比损失进行优化。同时,整个过程通过分类损失进行联合优化。
锚点多模态嵌入(A-ME):筛选关键跨模态特征:
锚点多模态嵌入的模态融合阶段:提出基于锚点的多模态嵌入模块(A-ME),通过跨模态注意力筛选top-k关键特征,经双向交叉注意力增强后融合为统一表示,如图3所示。
语义同步策略(SS):对齐LLM语义空间
语义优化阶段提:设计语义同步策略(SS),利用大语言模型生成意图标签的语义解释,如图3下半部分,通过SentenceBERT编码形成三维描述向量,结合对比学习动态对齐特征空间,提升语义一致性。
本框架创新性地结合了关键信息锚定与大语言模型的语义增强,实现了端到端的层次化特征优化。
2.3 A-MESS框架通过双阶段协同机制改进多模态意图识别:在模态融合方面,提出的A-ME模块通过分层注意力机制实现了细粒度的跨模态交互。不同于传统的特征拼接或简单注意力机制,本方法创造性地设计了锚点交叉注意力(An-CAttn)和时序交叉注意力(T-CAttn)的双层注意力架构。前者专注于模态间关键信息的深度交互,后者负责保持时序特征的完整性。这种设计既避免了辅助模态的信息冗余,又保留了文本模态的主导地位,在意图识别数据集上实现了较高的精度提升。
其次,在语义优化层面,SS策略通过动态三元组对比学习构建了可扩展的语义空间。每个意图标签通过大语言模型生成三个差异化描述,形成包含概念边界、情感倾向、行为特征的多维度语义表示。在对比学习过程中,采用自适应温度系数调节正负样本的相似度权重,通过负样本库的动态扩展增强模型的泛化能力。
最后,在整体架构设计上,A-MESS框架通过双损失联合优化机制实现了多目标协同训练。分类损失保证基础识别性能,三元组对比损失驱动语义空间优化,二者通过可学习的权重参数实现动态平衡,如图4和图5。本方法在视频模态处理中引入预训练的Swin-Transformer,在音频处理中采用WavLM模型,通过迁移学习策略有效缓解了多模态数据的领域差异问题。
本框架的创新价值在于:首次将大语言模型的语义生成能力系统性地引入多模态意图识别任务;建立了基于关键特征锚定的轻量化融合范式;开发了面向开放场景的动态语义对齐机制。这些技术突破不仅在多模态学习领域具有理论创新意义,更为智能对话系统、情感计算等实际应用提供了新的技术路径。
三、主要实验结果3.1 数据集与实验设置本研究在两个具有挑战性的多模态意图识别(MIR)数据集MIntRec和MIntRec2.0上进行了全面评估。
MIntRec数据集以细粒度的意图分类为核心,覆盖文本、视频和音频三种模态,包含多个真实场景下的复杂意图类别。
MIntRec2.0作为更大规模的数据集,进一步扩展了意图类别数量,并引入超出范围(Out-of-Scope, OOS)样本的检测任务。该数据集不仅包含丰富的多模态交互数据,还增加了对模型处理未知意图的能力评估。
实验选取了多种前沿方法作为基线模型,包括基于跨模态注意力机制的MulT、融合非语言信息的MAG-BERT、基于令牌级对比学习的TCL-MAP,以及挖掘视频上下文信息的CAGC。评估指标涵盖分类任务中常用的准确率(ACC)、F1分数、精确率(P)和召回率(R),以全面衡量模型性能,如图6和图7所示。
整体性能:A-MESS框架在多个关键指标上显著优于现有方法。在准确率方面,模型展现出对多模态信息融合的优越性,尤其在捕捉文本与辅助模态(音频、视频)的语义关联上表现突出。
对比分析:与依赖单一模态或传统融合策略的方法相比,A-MESS通过锚点选择和语义同步策略,有效减少了冗余信息的干扰。例如,在意图分类的精确率上,模型通过增强关键模态特征,显著提升了复杂意图的识别能力。
消融实验:移除锚点多模态嵌入(A-ME)模块或语义同步(SS)策略后,模型性能均出现明显下降,验证了这两个模块的独立贡献。同时,两者的联合使用进一步提升了意图表示的鲁棒性。
在范围(In-Scope)分类:A-MESS在处理大规模多模态数据时仍保持领先优势,尤其在召回率指标上表现突出,表明模型能够更全面地捕捉意图相关的多模态特征。
超出范围(OOS)检测:模型在识别未知意图时展现了较强的泛化能力。通过语义同步策略,A-MESS将多模态表示与标签的语义空间对齐,从而有效区分已知意图与未知场景,显著优于仅依赖传统监督学习的基线方法。
3.3 关键分析3.3.1 锚点选择的影响锚点数量优化:实验发现,如图8所示,从辅助模态中选择适当数量的锚点对模型性能至关重要。过多锚点引入冗余信息,而过少则可能导致关键特征丢失。通过动态调整锚点数量,模型在多模态表示中实现了信息过滤与关键特征增强的平衡。
跨模态交互:锚点间的跨模态注意力机制(An-CAttn)显著提升了视频与音频模态的交互效率。视频锚点通过融合音频模态的上下文信息,增强了动作与语音的关联性,从而改善了对复合意图(如“抱怨”伴随特定手势)的识别。
3.3.2 语义同步策略的贡献标签语义增强:利用大语言模型(LLM)生成的多重标签描述,模型通过对比学习将多模态表示与语义空间对齐。实验表明,生成三个不同描述的设置能够有效构建稳定的语义子空间,避免过拟合并加速收敛。
表示空间可视化:通过主成分分析(PCA)发现,语义同步后的多模态表示显著接近标签的语义分布。例如,“同意”类别的样本在同步后更紧密地聚集于对应的语义区域,验证了该策略对意图分类的可解释性提升。
四、结论与展望
A-MESS框架通过锚点多模态嵌入与语义同步策略的协同优化,在多模态意图识别任务中实现了显著突破。实验表明,模型不仅在标准数据集上达到先进水平,还在复杂场景(如超出范围检测、噪声干扰)中展现了优异的泛化能力与鲁棒性。未来工作可进一步探索跨语言意图识别与低资源场景下的应用扩展。
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。
社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励投稿方式
发送邮件到
yellowsubbj)投稿”二字,获得投稿说明。
关于我“门”
▼
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。
公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,
欢迎发送或者推荐项目给我“门”:
来源:德桦教育