【综述】华中科技大学:基于深度学习的旋转机械小样本故障诊断方法研究综述

360影视 动漫周边 2025-05-08 06:10 5

摘要:深度学习在旋转机械故障诊断领域展示出显著潜力,但因工程实践中训练样本难以获取,导致基于深度学习的故障诊断方法存在泛化性弱、诊断精度低等问题。小样本故障诊断方法,凭借在有限数据条件下故障信息有效挖掘的能力,逐渐成为学术界和工程界研究的热点。【方法】通过回顾并总结

基于深度学习的旋转机械小样本故障诊断方法研究综述

下 载 PDF

_

_

【目的】深度学习在旋转机械故障诊断领域展示出显著潜力,但因工程实践中训练样本难以获取,导致基于深度学习的故障诊断方法存在泛化性弱、诊断精度低等问题。小样本故障诊断方法,凭借在有限数据条件下故障信息有效挖掘的能力,逐渐成为学术界和工程界研究的热点。【方法】通过回顾并总结小样本学习方法在旋转机械故障诊断中的最新研究成果,阐述小样本故障诊断的任务定义和主要学习方法。在此基础上,根据不同的技术原理,将现有小样本故障诊断方法归纳为元学习、迁移学习、领域泛化、数据增强和自监督学习5类,并分析各类方法原理、应用及优缺点。【结果】各类方法在小样本故障诊断领域已取得一定成效,但在实际应用中仍存在诸多局限性,如元学习计算资源需求大、迁移学习受域间相似性限制等。【结论】未来在小样本故障诊断领域应探索数据治理、多模态学习、联邦学习以及机理−数据混合驱动等方法,克服现有方法的局限性,进一步提升小样本故障诊断的可靠性。

WU K, WU J, SHU Q M, et al. A review of deep learning-based few sample fault diagnosis method for rotating machinery[J]. Chinese Journal of Ship Research, 2025, 20(2): 3–19 (in Chinese).

引 言

旋转机械,如推进轴系、汽轮机、齿轮箱、电机和泵等,被广泛应用于智能制造、航空航天、船舶与海洋等领域[1- 2]。旋转机械的常见故障集中在轴承和齿轮等部件,主要故障类型包括不平衡、不对中、磨损等[3]。这些故障若不及时诊断,极有可能导致旋转机械损坏,进而引发安全事故,最终造成重大经济损失。因此,研究先进的旋转机械故障诊断技术,对于提升其运行的安全性和可靠性具有重要意义。随着数据的不断积累以及计算能力的逐步提升,人工智能技术持续取得新的突破,进而促使数据驱动的故障诊断方法在旋转机械故障诊断领域得以广泛应用。然而,当前方法大多依赖已知理想状态下的监测数据来驱动,并未充分考虑到实际应用场景中旋转机械所存在的以下问题:

1) 旋转机械往往服役于多变工况、复杂环境等恶劣场景,数据采集难度大,且采集的数据存在噪声和失真等问题;

2) 在工程实践中,新推出的旋转机械或采用先进技术的设备,由于尚未广泛投入使用,其相关故障数据积累较少。

因此,旋转机械故障诊断面临的主要困难是故障样本稀少,属于典型的小样本问题。

为此,国内外学者主要从基于物理模型的方法和基于机器学习的方法开展研究[4-5]。其中,基于物理模型的方法利用物理模型、数学模型和故障机理知识,对系统动力学方程进行求解。例如,Zhang等[6]针对实际故障条件下数据难以获取的问题,基于转子动力学和计算智能提出一种故障诊断策略。该方法通过集中质量法建立转子−轴承系统典型故障的动力学方程,并利用改进的小波包分解的经验模态分解方法处理故障信号。最后,通过多种群遗传算法优化的模糊支持向量机自动诊断系统状态。结果表明,所提出的方法不仅能提高故障诊断的准确性,而且增强了其在工程应用中的适用性。段嘉珺等[7]提出一种数据−机理驱动的虚实融合方法,通过仿真数据补充实际样本不足。实验结果表明,所提方法能显著提高多种智能算法在不同小样本下的诊断准确率。基于机器学习的方法通过对数据进行分析和学习,可以发现数据中的潜在规律[8- 9]。例如,王雪等[10]为克服小样本故障诊断困难,提出一种隐含函数S型贝叶斯故障诊断方法(LS-BFR),通过结合高斯随机过程、贝叶斯概率、高斯回归以及核函数实现非线性识别,并通过贝叶斯参数估计来确定核函数参数。实验结果表明,LS-BFR在处理小样本问题时具有更高的识别精度。袁胜发等[11]基于网络支持矢量机提出一种多类分类算法,通过构建二类分类器的网格式结构有效解决多类故障诊断问题,具有易扩展、训练样本需求少、快速和高准确率的特点。

尽管基于物理模型和机器学习的方法在小样本故障诊断中取得了显著进展,但是也面临一定的挑战。基于物理模型的方法往往需要依赖大量的领域知识和复杂的建模过程,这使得在复杂旋转机械系统中的建模难度较大。此外,基于机器学习的方法通常依赖手工提取特征,并且特征选择的准确性对诊断性能有着重要影响。

近年来,元学习、迁移学习、领域泛化、数据增强和自监督学习等技术在小样本故障诊断领域展现出巨大潜力[12-15]。元学习通过模拟人类学习过程,提高模型在小样本下的泛化能力;迁移学习通过引入大规模通用数据集知识,实现跨领域的故障诊断;领域泛化旨在提升模型在不同工况下的适应能力,减少域间差异的影响;数据增强通过生成更多的训练样本,增强模型的鲁棒性;自监督学习则通过构建辅助任务,从无标签数据中提取特征,提升模型在小样本数据下的诊断性能。

本文对Elsevier,Springer,IEEE和中国知网4个主要科学数据库进行文献分析,检索中文关键词“旋转机械”“故障诊断”和“少样本”(或“小样本”),以及英文关键词“rotating machinery”(或“rotary machine”)、“fault diagnosis”和“small sample”(或“few sample”)。在2019年1月至2024年7月期间发表的论文中共计检索出925篇。从图1可以看出,4个数据库中关于小样本故障诊断的论文发表数量均呈显著的增长趋势,表明该领域正日益受到学术界的关注和重视。

图1 不同数据库下小样本故障诊断方法的文献数量

尽管研究进展显著,但现有的小样本故障诊断方法仍然缺乏充分的总结和概括,亟须系统地进行梳理和分析。为此,本文从工作原理角度出发,将现有小样本故障诊断方法归纳总结为5类:元学习、迁移学习、领域泛化、数据增强和自监督学习。最后,总结这5类方法的核心思想、优势和局限性,并据此探讨未来的研究方向。

1 任务定义和主要学习方法

小样本故障诊断任务指的是在训练数据有限的情况下,如何有效地开发出泛化能力强的故障诊断模型。具体而言,该任务可以描述为:给定一个小样本故障诊断任务T,任务T中包含少量标注数据集DT和相关的辅助数据集DA。小样本故障诊断任务的目标是利用辅助数据集DA进行训练,以学习旋转机械的通用模型。随后,通过使用目标任务的少量标注数据集DT对模型进行更新,以适应小样本故障诊断需求。小样本故障诊断任务训练示意如图2所示。

图2 小样本故障诊断任务训练示意图

1.2 学习方法

目前主流的小样本故障诊断方法主要分为元学习、迁移学习、领域泛化、数据增强和自监督学习5类。基于元学习的小样本故障诊断方法通过从多个相关任务中学习通用知识,来提升模型在新任务上的快速学习和适应能力[16-17]。基于迁移学习的小样本故障诊断方法,通过无监督领域自适应技术,实现从源域到目标域的知识迁移,可有效提升模型在数据稀少时的故障诊断准确率[18- 19]。基于领域泛化的故障诊断方法则通过单一或多个源域训练模型,使模型能够学习到在这些域中的通用特征。而基于数据增强的小样本故障诊断方法主要通过生成模型、图像变换、噪声注入等技术来扩充原始数据集[13, 20]。基于自监督学习的小样本故障诊断方法利用数据自身的结构信息构建伪标签,并结合数据增强、对比学习等技术,解决小样本故障诊断中的标注数据稀缺问题[21]。这5类方法的进一步细分如图3所示,其中SMOTE表示合成少数过采样(synthetic minority oversampling technique)、GAN表示生成对抗网络(generative adversarial network)、VAE为变分自编码器(variational auto-encoder)。第2节将逐一展开并进行深入介绍。

图3 小样本学习方法

2 小样本故障诊断方法

2.1 基于元学习的小样本故障诊断方法

2.1.1 基于度量学习的方法

基于度量学习的核心思想是通过学习一个映射函数,将原始数据映射到新的嵌入空间[22-23]。在该嵌入空间中,通过优化样本间的距离,拉近相似类别,分离不同类别,使得类别之间的边界变得更加清晰。近年来,基于度量学习的方法已经在小样本故障诊断中得到广泛应用,如孪生网络[24]、匹配网络[25]、原型网络[26]和关系网络[27-28]。本节将介绍这4种方法在小样本故障诊断中的应用。

1) 基于孪生网络的故障诊断方法。

图4 孪生网络原理图

孪生网络通过利用2个子网络共享相同的权重机制,优化样本信息的利用效率,并缓解因样本稀缺导致的网络欠拟合问题[29-30]。Zhang等[31]提出基于孪生网络的小样本故障诊断方法,通过学习不同类别样本对的特征来提升故障诊断性能。Zhou等[32]利用孪生卷积神经网络构建用于工业网络物理系统异常检测的少样本学习模型。高洁寒等[33]建立基于孪生神经网络的故障诊断方法,利用由卷积层和池化层组成孪生子网络自适应地从原始振动信号中提取低维特征,使用欧氏距离判定输入样本对的特征相似度,提升了小样本情况下的准确率。

2) 基于匹配网络的故障诊断方法。

如图5所示,匹配网络利用注意力机制在查询样本和支持样本之间建立对应关系,使得模型能够在仅有少量样本的条件下,快速捕捉到关键特征,提高模型的适应性和分类性能[34-35]。

图5 匹配网络原理图

许多学者研究了基于匹配网络的故障诊断方法。例如,Zhang等[35]提出一种迭代匹配网络,并采用选择性样本重用策略,减少不同工况条件下域分布的差异,提高了模型的小样本跨域故障诊断的性能。He等[36]提出基于混合匹配网络故障诊断方法,该方法利用自动编码器对网络的特征进行正则化处理,以降低在训练样本有限的情况下出现过拟合的风险。

3) 基于原型网络的故障诊断方法。

图6 原型网络原理图

原型网络通过度量样本间的相似度来进行故障诊断,降低对大量标注数据的需求,因而在小样本故障诊断任务中表现出色。许多研究人员已经将原型网络应用于小样本故障诊断[37-38]。例如,Tang等[39]提出一种带有L2原型校正的增强原型网络,用于小样本跨域故障诊断。该方法利用L2来细化样本原型,实现了在有限的标记样本下的跨域故障诊断。Zhang等[40]提出一种双原型对比网络的方法,用于小样本故障诊断。该方法通过域内原型对比,增强了同一域内的原型−实例紧凑性,进而引导模型学习类别特征。邵海东等[41]提出一种改进的半监督原型网络方法,通过引入标签分配准则,充分挖掘和利用无标签数据的特征知识,减少了未知数据的干扰。此外,设计了一种度量缩放的损失函数,度量不同类别之间的相似性,进一步提升了模型的诊断准确率。

4) 基于关系网络的故障诊断方法。

图7 关系网络原理图

许多研究人员已经将关系网络应用于小样本故障诊断任务。例如,Chen等[45]使用一种新的收缩注意力关系网络,用于工业机器人的故障检测。Xue等[46]基于注意力加权关系网络开发一种新型故障诊断方法,实现了小样本数据的故障诊断。陈作懿等[47]设计一种收缩自注意力关系网络,用于解决零故障样本下故障诊断精度低的问题。在该网络中,通过残差收缩网络,减少样本中噪声的干扰,并提取与故障相关的信息。接着,采用基于Transformer的关系网络,度量不同类别间的相似性,进而确定故障类型。

通过深入分析相关文献,对基于度量的小样本故障诊断方法进行了广泛的探索和研究,发现这些方法主要通过学习样本间的距离或相似性来提高模型的泛化能力。其中:孪生网络利用对比学习增强样本对的区分度,但训练过程较为复杂且参数量大;匹配网络通过注意力机制强化了对支持集的利用,适用于快速适应新任务,然而在更复杂的关系学习上存在局限;原型网络则通过计算样本与类别原型之间的距离进行分类,简单有效但缺乏对样本复杂关系的捕捉能力;关系网络通过学习样本间复杂的关系来提升模型的灵活性和适应性,尽管训练更为复杂,但能更好地处理复杂的故障诊断任务。

2.1.2 基于优化的方法

基于优化的方法在故障诊断任务中的应用是一个新研究领域,其利用元学习技术来提高模型的泛化性和适应性[48-49]。如图8所示,基于优化的方法的核心思想是通过一个全局共享的元学习器,初始化多个特定任务的基础学习器,使得每个基础学习器能够在少量样本的情况下快速适应新任务。近年来,基于优化的元学习方法已经在小样本故障诊断中得到了广泛研究,如模型无关元学习(model-agnostic meta-learning,MAML)和Reptile网络等。接下来将介绍这2种方法在小样本故障诊断中的应用。

图8 基于优化的方法

1) 基于MAML的故障诊断方法。

MAML算法通过在多个任务上训练模型,学习到一组通用的初始化参数,使得模型能够在新任务上通过少量的更新步骤迅速适应并取得良好的性能,其原理图如图9(a)所示。在风力涡轮机的故障诊断中,Liu等[50]使用MAML训练了一个元基线模型,该模型能够在标注数据有限的情况下快速诊断风力涡轮机的故障。MAML使模型只需更新几次就能有效地适应新的涡轮机故障,从而提高小样本下的故障诊断准确率。同样,Yang等[51]将MAML应用于高速列车悬挂系统的故障诊断任务。该方法通过有效地利用不同悬架系统故障之间的知识,增强了故障诊断性能。

图9 MAML和Reptile优化方法

2) 基于Reptile的故障诊断方法。

Reptile是一种元学习算法,可通过微调模型参数来快速适应新任务。该算法通过重复任务采样,在每个任务上对模型进行梯度训练,然后根据任务间积累的变化更新模型参数。Pei等[52]利用基于Reptile的元学习策略来进一步增强Wasserstein自编码器(wasserstein auto-encoder,WAE)在面对小数据集时从先验分布到振动信号的映射能力。

基于优化方法的小样本故障诊断方法已被学者关注。其中,MAML算法通过多任务训练学习通用初始化参数,使模型在新任务上快速适应。而Reptile算法则通过简化的参数更新策略来减少计算和内存需求,两者都旨在使模型在少量样本的情况下快速适应新的故障诊断任务。

2.1.3 基于模型的方法

基于模型方法的核心目标是使模型能够快速适应新任务,即使在面对有限数据的情况下也能表现出良好的泛化能力[49, 53]。这种方法的灵感来自人类学习新技能的方式——通过以往的经验来加速新知识的学习过程。在基于模型的方法中,记忆增强神经网络(memory augmented neural networks,MANN)是一种常见的方法[54]。MANN通过引入外部记忆组件,如神经图灵机(neural Turing machines,NTM)或其他记忆网络结构,使得网络能够在学习过程中存储和检索信息。这种结构允许模型在遇到新任务时,利用已有的记忆信息来加速学习过程,从而在小样本学习场景中取得更好的性能。

在小样本故障诊断的应用场景中,MANN因其能够有效地处理和利用有限的数据而受到关注。通过记忆组件,MANN可以在面对少量样本时,仍然保持对故障特征的敏感性和识别能力。Wang等[55]提出一维记忆增强卷积长短期记忆(one-dimensional memory augmented convolutional long short term memory,1D-MACLSTM)网络,用于多螺栓松动检测。在NTM和MANN的基础上,1D-MACLSTM构建了一个外部存储器模块来存储旧样本信息,并通过LSTM建立控制器来访问外部存储器。结果表明,无论在噪声的影响下,还是在不同工况下,该方法都能取得较好的检测效果。

基于模型的方法在小样本故障诊断中,能使模型快速适应新任务并有效利用有限数据,提高泛化能力和敏感性。然而,这种方法会增加模型复杂性,对计算资源有更高的需求,并对噪声更加敏感。

2.2 基于迁移学习的小样本故障诊断

方法

迁移学习通过利用源域和目标域之间的相似性,将在源域中学习到的通用知识迁移到目标域中,解决目标域样本数据标注不足的问题[56-58]。基于迁移学习的方法根据机制的不同可分为基于实例的方法、基于特征的方法和基于模型的方法[59-61]。

1) 基于实例迁移的故障诊断方法。

如图10所示,基于实例的迁移学习通过给源域中的数据分配权重,减少源域和目标域数据之间的分布差异[62]。Zhang等[63]提出一种基于实例的集合深度迁移学习方法,通过迭代选择目标域的实例,并使用多个堆叠自动编码器开展训练,采用支持向量机进行故障识别。Wu等[64]针对大规模数据标注难度大、成本高的问题,建立基于实例迁移学习的长短期记忆网络模型。该方法通过生成数据集的方法,利用迁移学习来增强模型的泛化能力,实现在有标签数据有限的情况下的故障诊断。此外,Kim等[65]通过采用改进的域适应技术,提出一种基于实例的迁移学习方法,从源域数据中生成辅助目标领域的数据,减轻了模型的负迁移现象,进而提高模型的准确性和可靠性。

图10 基于实例迁移示意图

2) 基于特征迁移的故障诊断方法。

如图11所示,基于特征的迁移学习是将源域和目标域的数据特征变换到同一特征空间中,减少两者之间的差异,进而利用源域的特征知识来提高目标域的学习性能[66]。Xu等[67]提出一种结合变分模态分解能量熵和迁移学习的旋转机械故障诊断方法。该方法通过变分模态分解信号,提取出有助于识别故障的特征。为减小源域和目标域之间的分布差异,采用了W-distances评估特征分布的差异。通过使用特征迁移的方法来平衡模型适应性,解决了在故障诊断中需要收集大量标记数据的难题。Zhang等[68]结合迁移学习、稀疏自动编码器和K-means聚类算法,学习源域和目标域之间的共同特征空间,实现更准确的故障诊断。Tian等[69]提出一种基于混合迁移学习的深度特征迁移融合模型,学习源域数据的深层特征,并将其迁移到目标域。该模型能够捕捉到数据的深层特征表示,并通过迁移学习策略,将这些特征应用到目标域中,进一步提升了故障诊断的性能。

图11 基于特征迁移示意图

3) 基于模型迁移的故障诊断方法。

如图12所示,基于模型的迁移学习是通过共享源域和目标域的网络模型参数,实现共有特征的提取。Xie等[70]利用大量的模拟故障数据和仅正常测试样本来构建训练样本库,用于深度学习诊断模型的预训练。该方法采用模型参数迁移策略,利用少量的测试故障样本对诊断模型进行微调,提高了模型的泛化性和诊断准确性。Li等[71]结合模型参数迁移学习和卷积自动编码器,将类似的风力发电机组中获得的知识迁移到目标风力发电机上,解决了故障样本稀少的问题。

图12 基于模型迁移示意图

移学习作为一种有效的机器学习方法,已经在多个领域展现出巨大的应用潜力。基于实例的方法通过加权或直接利用源域数据来辅助目标域训练,但该方法受限于数据分布差异。基于特征的方法通过共享特征空间来迁移知识,能有效处理不同特征空间的问题。基于模型的方法通过微调预训练模型来适应新任务,具有较好的通用性和泛化能力,但该方法对源域和目标域的相似性有一定要求。

2.3 基于领域泛化的小样本故障诊断

方法

如图13所示,领域泛化是通过单一或多个源域训练模型,使模型能够学习到在这些域中的通用特征,其核心目标是提高模型在面对未知的目标域时的泛化能力[72-74]。目前,基于领域泛化的方法根据机制的不同可分为基于同质领域泛化的方法、基于联邦领域泛化的方法、基于半监督领域泛化的方法和基于不平衡领域泛化的方法。

图13 领域泛化示意图

1) 基于同质领域泛化的故障诊断方法。

如图14所示,基于同质领域泛化的方法从有限源数据中学习到通用的故障特征,并将其迁移至不可见目标领域。Ren等[75]构建通用的训练框架,采用元学习、梯度对齐和语义匹配技术,提升了智能故障诊断模型未知域中的泛化能力。Fan等[76]建立深度混合领域泛化网络模型,旨在解决基于领域自适应的现有智能故障诊断模型在实际工程场景中应用受限的问题。

图14 同质领域泛化

2) 基于联邦领域泛化的故障诊断方法。

如图15所示,基于联邦领域泛化的方法,通过保护数据隐私的方式,实现在分布式数据集上协同训练机器学习模型,并解决了数据难以从多个用户收集的挑战[77]。Song等[78]提出基于联邦学习的智能故障诊断方法,该方法采用伪Siamese网络(一种特殊的孪生神经网络)和聚合技术,解决了数据隐私需求和模型在未知领域的性能下降问题。

图15 联邦领域泛化

3) 基于半监督领域泛化的故障诊断方法。

如图16所示,基于半监督领域泛化的方法旨在解决标记数据获取困难和成本高昂的问题,通过结合标记和未标记源域数据来训练一个能够在不同领域表现良好的泛化模型[79]。Zhao等[79]提出一种半监督领域泛化方法,解决智能故障诊断中标注样本获取困难的问题,提高了模型的泛化能力和诊断精度。Ren等[80]提出领域模糊泛化网络框架,通过域模糊和度量学习策略,挖掘域不变和判别特征,增强了模型的泛化能力。

图16 半监督领域泛化

4) 基于不平衡领域泛化的故障诊断方法。

如图17所示,基于不平衡领域泛化的方法旨在解决实际数据采集存在类别不平衡导致模型诊断精度低的问题。Zhao等[81]提出一种结合语义判别增强和三元组损失的网络结构,解决了不平衡领域泛化故障诊断中的类别不平衡问题。

图17 不平衡领域泛化

基于领域泛化的小样本故障诊断方法在提高模型泛化能力方面具有明显优势。这些方法能够从有限的源数据中学习到通用的故障特征,并将其迁移至不可见目标领域,提高模型在未知领域的泛化能力。然而,当源域和目标域之间分布差异较大时,泛化能力存在不足,且模型可能面临过拟合的风险。此外,这些方法还需要较高的模型复杂度和通信成本,尤其是在联邦领域泛化的场景下。

2.4 基于数据增强的小样本故障诊断

方法

小样本故障诊断的核心问题在于样本数量有限,因此很难训练出有效的故障诊断模型[82]。针对小样本学习任务的最直接方法就是增加训练数据。数据增强的主要思路是为样本较少的类别扩充样本数量,进而训练出一个可靠性高,泛化性强的诊断模型。目前,数据增强方法主要包括SMOTE,GAN和VAE等方法[83]。

1) 基于SMOTE的故障诊断方法。

如图18所示,SMOTE的基本思想是从少数类样本出发,找到邻近的同类样本,并在两者之间生成新的少数类样本,使得样本更加平衡。Liu等[84]开发了一种特征级数据增强方法,利用孪生多头注意力网络(Siamese multi-head self-attention network,DSMHSA)学习一个特征空间,该空间具有较大的类间距离,使得类间样本相互远离。接着,在学习到的特征空间中通过SMOTE生成合成故障样本。

图18 SMOTE示意图

2) 基于GAN的故障诊断方法。

GAN是一种无监督学习模型,由生成器和判别器组成,其网络原理如图19所示。GAN的主要思想是通过从训练数据集学习,训练生成器生成真实的数据样本。生成器将随机噪声作为输入,生成训练样本。Ren等[85]提出一种新的GAN网络,利用样本丰富的类别为样本匮乏的类别提供样本分布范式。

图19 GAN网络原理图

3) 基于VAE的故障诊断方法。

变分自编码器VAE和生成对抗网络GAN都是深度学习领域中用于生成数据的模型,但它们在设计原则、工作原理和应用场景上存在一些关键的区别。如图20所示,VAE是基于概率的生成模型,它使用变分推断来学习数据的潜在表示,并假设潜在变量遵循特定的分布。此外,VAE通过最小化重构误差和正则化项(KL散度)来训练,使得生成的数据尽可能接近真实数据分布。Liu等[86]开发了一种条件VAE方法,即具有分布增强功能的条件VAE(CVAE with distribution augmentation,DECVAE),进而生成高质量的训练样本。DECVAE在传统CVAE的优化目标中增加新的样本分布距离损失,增强样本覆盖更大空间,从而提高多样性。其次,DECVAE在传统CVAE中引入辅助分类器,以提高对类别信息的敏感度,保持增强样本的类别不变性。江帆等[87]将VAE与Wasserstein生成对抗网络(WGAN)相结合,建立一个基于VAE-WGAN的模型,解决了模型在样本数量有限时故障诊断精度差的难题。

图20 VAE网络原理图

基于数据增强的小样本故障诊断方法能有效提升模型在数据稀缺情况下的泛化性和诊断精度。然而,数据增强会引入与原始数据分布不一致的样本,导致模型在测试数据上的表现不佳。其次,生成高质量、多样化的数据样本需要复杂的生成模型和大量的计算资源。

2.5 基于自监督学习的小样本故障

诊断方法

自监督学习是近年来新兴的神经网络训练范式[88-90]。如图21所示,自监督学习包括预训练和微调2个阶段。在预训练阶段,编码器从大规模的无标签数据中挖掘自身的监督信息,通过代理任务进行训练,提取对下游任务有价值的特征。在微调阶段,编码器提取有标签数据集的特征,再通过下游任务模块,微调编码器的模型参数,使其更好地适应下游任务[91]。自监督习方法主要包括对比式自监督学习和生成式自监督学习。近年来,基于自监督习方法已经在小样本故障诊断中得到了广泛研究,本节将介绍自监督学习方法在小样本故障诊断中的应用。

图21 自监督学习的原理图

1) 基于对比式自监督学习的故障诊断方法。

对比式自监督学习通过将数据的不同视图(或变体)拉近,将不同数据推远,来学习数据的有效表示[92],其原理如图22所示。这种方法依赖于设计正样本(相似的实例)和负样本(不相似的实例)来训练模型。对比式自监督学习已经在多个领域,包括计算机视觉和自然语言处理中,展示了其强大的性能。例如,视觉表征简单对比学习(simple contrastive learning of visual representations,SimCLR)、动量对比学习(momentum contrast,MoCo)等都是对比式自监督学习的方法。在小样本故障诊断领域,对比式自监督学习也被证明是一种有效的策略。He等[93]提出了一种新型深度强化学习策略,该策略结合SimCLR和提升了优先经验重放方法,用于非理想数据场景下的机械故障诊断。此外,李巍华等[94]提出一种基于对称对比式自监督学习的无监督齿轮箱故障诊断方法,通过数据增强和卷积神经网络提取特征,优化损失函数以提高模型泛化能力。实验结果表明,该方法在齿轮箱数据集上实现超过98%的高聚类精度,展现出优越的聚类效果和泛化性能。Wang等[95]设计了一种结合无标记信号来表征学习思想和小样本学习的新模型。该模型采用自监督学习,从大量无标记样本中获取信号的固有特征。随后,再将获得的特征迁移到改进的孪生网络中,增强了其在小样本下的鲁棒性和泛化能力。Kong等[96]提出一种多任务自监督方法,通过设计对比相似性匹配、伪标签学习和内样本时间关系推理3个自监督任务,全面挖掘无标签数据中的诊断知识,提高了故障诊断的领域适应性和诊断准确性。

图 22 对比式自监督学习原理图

2) 基于生成式自监督学习的故障诊断方法。

生成式自监督学习结合了生成式模型和自监督学习的概念,模型通过生成数据,学习数据的内在结构和分布,且不需要外部提供的标签或注释。Li等[97]提出一种自监督生成对抗网络算法,解决了实际工业中起重系统在少量数据情况下,数据驱动型故障诊断方法准确性不足的问题。该算法通过在多种数据生成任务上的训练,确定模型的最优初始参数,实现了仅用少量训练数据生成新数据的目标。此外,还提出一种自监督学习策略,旨在提高算法的泛化性能。

基于自监督学习的小样本故障诊断方法能有效利用未标记数据学习鲁棒的特征表示,减少对人工标注的依赖,但同时面临着设计有效辅助任务、模型过拟合、计算资源消耗大和模型解释性不足等问题。

3 小样本故障诊断方法总结及发展趋势

3.1 现有的小样本故障诊断方法总结

小样本故障诊断方法的对比分析如表1所示,总结了不同方法的核心思想、优点和局限性。

表1 小样本故障诊断方法对比

元学习方法通过学习多个任务来提高模型的泛化能力。其中,基于度量的方法通过学习一个嵌入空间来计算样本间的相似性,其优点是计算资源需求较少且易于理解,但对相似性度量函数的设计要求高,且对异常值敏感。基于优化的方法通过调整模型参数来达到最佳性能,可以针对特定任务进行优化,但优化过程需要大量计算资源。基于模型的方法通过学习任务间的共性来适应新任务,具有很好的适应性,但训练过程需要大量计算资源。

迁移学习方法利用从源域到目标域的知识迁移来提高学习效率。其中,基于实例迁移的方法通过加权相似样本来减少分布差异,简单易实现,但需要大量标注数据。基于特征迁移的方法通过特征变换来提高模型泛化能力,有助于迁移知识,但容易过拟合。基于模型迁移的方法通过迁移预训练模型的参数来减少计算资源消耗,但易发生负迁移现象。

领域泛化旨在提高模型于未见过的领域中的表现。其中,基于同质领域的方法通过共享特征提取器在相似领域中保持良好性能,但易过拟合;基于联邦领域的方法在多个域中共享模型更新,保护数据隐私但通信复杂;基于半监督的方法利用少量标注数据和大量未标注数据提升泛化能力,但依赖未标数据质量;基于不平衡领域的方法通过加权损失和重采样改善不平衡数据中的表现,但会增加训练复杂性。

数据增强方法通过生成新的样本来增加数据集的多样性。SMOTE通过生成合成样本来平衡类别分布,实现简单,但在高维数据中效果不佳。GAN能够生成高质量和多样性的合成数据,极大地丰富数据集,然而,其训练过程不稳定且计算成本高。VAE通过编码器和解码器生成新数据样本,保持与原始数据相似的分布,但其训练过程比较复杂。

自监督学习利用未标注数据进行特征学习,减少对标注数据的依赖。其中,对比式自监督学习通过优化正负样本对的距离来学习特征,适合高标签成本场景;生成式自监督学习通过设计自监督任务引导模型学习数据结构,捕捉复杂结构但需大量计算资源且有过拟合风险。

3.2 小样本故障诊断方法的发展趋势

尽管现有的小样本故障诊断方法取得了显著的效果,但仍存在待深入研究的方向,具体包括:

1) 数据治理。

现有关于小样本问题的研究主要集中在监测数据的数量上,而对数据质量的关注相对较少。实际上,监测数据是实现故障诊断任务的基石,其质量严重影响故障诊断方法的准确性。因此,亟须深入研究旋转机械的数据治理策略,包括数据质量的量化、评估与提升机制,从而最大限度地减少传感器漂移、测量误差、环境噪声和标签不准确等因素的影响,确保收集到的监测数据符合质量要求。

2) 多模态学习。

多模态学习是一种新兴的模型训练方法,它能够处理并整合来自不同数据源的信息,为解决旋转机械在小样本情况下的诊断问题提供了新的解决途径。具体来说,旋转机械存在着丰富形式的监测数据,包括但不限于不同位置的传感器数据、不同类型的传感器数据和维护记录。这些数据通过多模态学习技术融合,可以弥补单一数据源低信息密度的不足。同时,多模态数据有助于更全面地感知装备健康状态,从而提高旋转机械的故障诊断能力。

3) 联邦学习。

联邦学习是一种分布式的深度学习方法,它遵循“数据不动,模型动”的原则,允许不同企业利用本地数据集共同训练一个共享深度学习模型,从而解决数据孤岛与用户隐私保护问题,也减少了与大规模数据收集、传输、存储和模型训练相关的代价。此外,联邦学习通过在本地进行模型训练和更新,减少对网络带宽的需求,降低了数据泄露的风险。

4) 机理−数据混合驱动方法。

现有研究表明,数据驱动方法,尤其是深度学习方法,擅长从多变量数据中挖掘潜在的故障模式,但这些方法在小样本数据上的性能容易受到影响。与此同时,基于物理模型的方法虽然融合了机理或专家知识,但在数据处理方面存在局限。鉴于这两种方法各自的优势和不足,目前出现一种新趋势:开发机理−数据混合驱动方法,将领域知识与数据驱动的隐式知识相结合。这在解决小数据问题方面有2个明显的优势:一方面,引入物理知识有助于减少深度学习模型的黑箱特性,提高在小样本情况下的故障诊断任务的可解释性;另一方面,物理建模将已知的物理定律和原理作为先验知识,可以减少复杂工况下小样本数据带来的不确定性和领域偏差。

4 结语

在工程实践中,由于旋转机械的服役工况时变、监测数据质量差等因素,导致产生小样本问题。因此,研究旋转机械小样本故障诊断技术具有重要的理论意义和工程应用价值。

本文通过系统梳理旋转机械小样本故障诊断的研究进展,总结了近年来该领域的主要研究方法及发展趋势,为相关技术的优化与拓展提供参考。从工作原理角度出发,将现有小样本故障诊断方法归纳为元学习、迁移学习、领域泛化、数据增强和自监督学习5类,并详细对比分析了其核心思想、优势及局限性。未来在小样本故障诊断领域应探索数据治理、多模态学习、联邦学习以及机理−数据混合驱动等方法,克服现有方法的局限性,进一步提升小样本故障诊断的可靠性。

往期精彩推荐

1.【新刊】AI 赋能,护航未来:“船舶智能运维与故障诊断”专题 | 2025-2期

中国舰船研究

Chinese Journal of Ship Research

欢迎分享到朋友圈✬ 评论功能现已开启, 接受一切形式的吐槽和赞美

来源:中国舰船研究

相关推荐