摘要:呼吸音频,如咳嗽和呼吸声,在许多医疗应用中具有很大的预测潜力,但目前尚未得到充分的探索。这些应用的一大主要挑战在于难以收集大量针对特定任务的有标注数据来支持模型开发。构建一个利用未标记数据进行预训练的通用呼吸声学基础模型,有望帮助突破这一瓶颈。考虑到医疗应用的
呼吸音频,如咳嗽和呼吸声,在许多医疗应用中具有很大的预测潜力,但目前尚未得到充分的探索。这些应用的一大主要挑战在于难以收集大量针对特定任务的有标注数据来支持模型开发。构建一个利用未标记数据进行预训练的通用呼吸声学基础模型,有望帮助突破这一瓶颈。考虑到医疗应用的安全性要求,对于任何提出的基础模型解决方案,确保开放性和可复制性也是至关重要的。为此,我们提出了OPERA,首个呼吸声学基础模型预训练和基准测试的开放系统。我们整理了一个大规模的呼吸音频数据集(约13.6万样本,总时长超过400小时),预训练了三个开创性的通用声学模型,并设计了一个包含19个下游呼吸健康任务的基准测试用于评估模型性能。实验表明,我们的预训练模型展现出卓越的性能(在16个任务中优于现有的使用通用音频预训练的声学模型),并展现出可喜的泛化能力(可以适应未见过的数据集和新的呼吸音频模态)。这些成果展示了呼吸声学基础模型的巨大潜力,并鼓励研究者利用OPERA这一开放资源,加速呼吸音频在健康领域的研究进展。
论文地址:
https://openreview.net/pdf?id=vXnGXRbOfb
代码链接:
Motivation
呼吸系统是人体的重要组成部分,与心血管系统和其他系统有着密切关系。呼吸系统疾病是患者去医院就诊最常见的原因之一,也是全球第三大死亡原因,这对医疗系统造成了巨大的负担。因此,数字化的早期筛查显得非常必要且有意义。
呼吸音作为一种数据传感方式,具有很大的前景。咳嗽声和呼吸声中包含了大量与健康状态相关的信息。例如,健康人咳嗽的声音与哮喘病人咳嗽的声音是明显不同的。除了这些有用的信息,音频数据的采集也十分方便。麦克风作为一种非侵入式传感器,已经广泛应用于我们的手机、智能手表和耳机中。因此,呼吸音有潜力成为一种广泛的健康监测数据来源,无需额外投入新的成本。
呼吸音除了用于诊断流感和哮喘等疾病外,还可以用于估计呼吸频率和肺功能,检测睡眠时的打鼾和呼吸暂停事件等,具有广泛的应用前景。然而,这些应用面临的一个主要挑战是难以收集大规模标注数据集,以便为每项任务训练一个专用的深度学习模型。特别是当面对新的疾病、新的应用或新的数据采集设备时,这一问题尤为突出。
因此,作者希望开发一个方便且通用的预训练深度学习模型来帮助我们处理呼吸音频数据,这个模型能够适用于各种下游任务。另外,这个模型应该足够开放和透明,以便在真正投入使用之前可以对其进行充分深入的评估。
Current Literature and Challenges
目前,虽然已经存在大量的呼吸音频数据,特别是在疫情期间,许多高校和科研团队都收集了不少这类数据,并且很多数据是公开的。但至今尚无人将这些数据系统整理并整合起来进行模型训练。同时,市面上也缺少一个专门为呼吸音设计的开源基础模型。
尽管市面上确实存在一些可用于音频处理的模型,但这些模型仅见过极少量的呼吸音数据,因此可能无法有效捕捉如咳嗽声中不同健康状态带来的细微差别。
另外,目前也缺乏一个好用的基准测试来比较这样的模型,而基准测试对计算机科学应用至关重要。
Introduction to OPERA
OPERA系统主要进行了三部分工作。首先,作者整理了大量的未标记呼吸音频数据集,用于模型的预训练。接着,作者利用整理好的数据集对三个模型进行了预训练。最后,作者设计了一个包含各种应用的基准测试,并在其中加入了他们的预训练模型,与现有模型进行了评估和比较。
Pretraining datasets
首先是关于预训练数据集,作者在OPERA系统中整合了来自五个开放数据集的数据,以支持呼吸音基础模型的训练。这些数据集包括了三种不同的模态:第一种是采集自移动设备麦克风的呼吸声和咳嗽声,主要来自手机;第二种是采集自数码听诊器的肺音,更接近于医生听诊时听到的声音。因此,整个预训练数据集包含约13.6万个音频样本,总时长超过400小时。
Pretraining approaches
利用整理好的数据,研究者采用了两种最具代表性的自监督学习(SSL)方法对三个模型进行了预训练。第一种方法是对比学习,它训练编码器去区分相似的样本和不同的样本,使相似样本在嵌入空间中更加接近,而不同样本则相对更远。在这种方法中,他们使用同一段音频的两个随机裁剪作为正样本对(positive pair),而将不同音频之间作为负样本对(negative pair)。研究者用这种目标函数(objective function)训练了两个模型。
第一个模型称为OPERA-CT,是基于Transformer的模型;另一个模型称为OPERA-CE,是一个轻量级的卷积神经网络模型,他们采用了EfficientNet架构,使其更适用于设备上的部署等情况。
从图中的t-SNE可视化结果可以看出,同一音频样本的不同裁剪(即同色点)在嵌入空间中更加接近。这表明,尽管随机裁剪会引入变化,模型依然能够有效地捕捉音频数据的特征。
另外,对于生成式预训练 (OPERA-GT),研究者使用了掩码自动编码器(Masked Autoencoder)。他们将70%的频谱掩码,然后将剩余的可见片段送入编码器提取有用的特征。接着,使用一个轻量级的解码器重构原始的谱图。最终,仅使用编码器作为最终的基础模型。从可视化效果当中也可以看出,模型的重构性能也是非常好的,可以学到这个频谱的局部和整体的各种信息。
Benchmarking
为了进行全面测试,研究者使用了10个有标签的数据集,并设计了19个任务。其中有12个任务(在PPT中用灰色标示)是预训练模型未见过的数据来源。这些数据可能具有不同的采集协议、不同的采样率,或者来自不同国家、地区和人群,甚至包括不同类型的呼吸音,如鼾声和元音发音,这些模态在训练中都未曾涉及。
具体来说,作者建立了12个分类任务,主要用于推断各种健康状况;另外,他们还设计了7个回归任务,用于估计肺功能中的肺活量和呼吸频率。这种广泛且多样化的任务设计确保了模型能够在不同条件下进行有效评估,验证其通用性和鲁棒性。
Comparing with baselines
为了直观地比较预训练模型的性能,在这个基准测试中,研究者对所有下游任务统一采用了线性评估方法。他们保持预训练模型的参数不变,保留其学到的特征,并在此基础上训练一个线性分类器进行分类。这是一种常用且有效的迁移预训练模型知识的方法,尤其适用于数据量较少的下游任务,因为它无需微调整个模型。文章中更多结果显示,有足够有标签数据时,微调还可以进一步提高模型的性能。
作者将OPERA模型与一个常用的音频特征集OpenSMILE以及三个通用音频预训练模型进行了比较。通过这种方式,验证模型在不同任务中的表现,并评估了其在各种条件下的迁移能力。
Results
从这张表中可以得出一个结论:在19个任务中,OPERA模型在16个任务上优于基线模型,这证明利用目前能够获取的所有呼吸音频数据来专门为这类任务预训练一个呼吸音基础模型是有意义的。
在12项健康状况推断任务中,OPERA模型在六项任务中获得了超过0.7的AUC(曲线下面积)。在肺活量估计的任务上,预训练模型显著减少了大多数任务的误差。此外,在其他任务上的表现也与基线模型较为接近。
Findings
此外,作者发现,利用尽可能多和多样化的训练数据预训练的基础模型,展现出了对新数据源较好的泛化能力。之前提到的12个任务中,包括了模型未见过的数据或者是没有见过的呼吸音模态。在这12个任务中,OPERA模型表现优于传统特征集和通用音频预训练模型。这些基线模型本身就具有较好的通用性和泛化能力,因此作者模型的优异表现显得尤为重要,这也是基础模型的一个关键能力,因为它们需要在新的数据和应用中被广泛应用。
作者训练了三个模型,并比较了不同训练设计的效果。结果显示,对比学习模型在分类任务中表现更好,而生成式预训练模型在回归任务中表现更佳,这与它们的目标函数相关,也符合之前在计算机视觉领域的发现。
表格展示了不同组任务上的平均表现,提供了综合所有任务的一个直接整体比较。可以看到,OPERA-CT模型在分类任务上表现最佳,而OPERA-GT模型在肺功能估计的回归任务上表现更为优异。
基于这一观察,作者进一步使用了显著性图来观察OPERA-CT和OPERA-GT模型在处理未见过的音频数据时,关注频谱中的哪部分内容。他们发现,OPERA-CT模型更倾向于关注频谱中的一些局部区域,例如左图中的中低频和高频区域,这些区域与咳嗽声密切相关,并且存在明显的峰值。而OPERA-GT模型的注意力则更加分布在整个频谱图上。
在第一个例子中,OPERA-CT模型更擅长找出音频中的关键部分,并区分不同音频,对于疾病诊断更加有用。然而,在第二个例子中,在进行肺活量估计任务时,OPERA-GT模型将更多注意力放在后期的能量衰减上,这能够表明肺活量不足的状态。相比之下,OPERA-CT模型的注意力仍集中在音频的高频和低频局部区域。
这种观察解释了为什么OPERA-CT模型在肺功能评估中的表现不如OPERA-GT模型,因为在肺功能评估任务中,全局信息更加关键,而OPERA-GT模型能够更好地捕捉这些全局信息。
Conclusion and Future Directions
作者表示,希望通过这些资源,其他研究人员可以利用预训练好的模型作为特征提取器,应用于新的任务和场景。
此外,作者介绍了未来的研究方向。例如,如果未来有更多的数据公开,是否可以观察到类似于自然语言处理(NLP)领域中的“scaling law”现象。此外,他们还探讨了是否可以整合呼吸音、心音等其他生理声音,训练一个更为全面的体音大模型。
作者还提到,如何利用这些模型与更多多模态的数据相结合是一个重要的研究方向。他们进行了一些后续的相关工作,例如利用大语言模型同时建模音频、病史信息和症状描述等多模态信息,这些工作将进一步推动呼吸音基础模型的研究和应用。
来源:科学鉴感