Nat. Commun:用于语音识别和交互的机器学习辅助可穿戴传感系统

360影视 国产动漫 2025-03-14 16:50 2

摘要:人体会产生丰富的生物信号,这些信号可以被人体检测、数字化、分析并与外界设备交互。其中,人类的语音尤其具有丰富的时域、频域和幅度信息传输能力。这种丰富的信息承载能力使声音成为生物通信、人机交互(HMI)和物联网(IoT)应用(包括智能家居、远程控制、身份识别和语

背景介绍

人体会产生丰富的生物信号,这些信号可以被人体检测、数字化、分析并与外界设备交互。其中,人类的语音尤其具有丰富的时域、频域和幅度信息传输能力。这种丰富的信息承载能力使声音成为生物通信、人机交互(HMI)和物联网(IoT)应用(包括智能家居、远程控制、身份识别和语音系统)的重要组成部分。然而,基于空气振动的语音通信容易受到背景噪声(如路边、商场、车站等嘈杂环境)和声学介质(如火灾、医院、水下等特殊场景)的干扰和阻碍。此外,发声过程依赖于器官的协调系统,任何因肌萎缩侧索硬化症(ALS)、中风、帕金森病或喉癌等疾病引起的损伤都会严重影响语音清晰度和识别效率。为了应对这些挑战,研究人员开发了先进的降噪算法和多麦克风系统来增强语音处理能力。然而,这些解决方案的有效性受到声音信号质量和多特征参数复杂性的限制。例如,单麦克风系统无法捕捉空间特征,难以提供高信噪比的音频信号。虽然多麦克风系统和相关算法可以改善语音信号处理,但它们需要复杂的工程设计并占用更多空间。

最近,基于面部和嘴唇运动的视觉语音识别已成为一种在嘈杂环境中增强语音感知的方法。虽然这种方法可以在具有挑战性的声学条件下提高语音感知质量,但它需要额外的摄像头,这增加了系统的复杂性并降低了实用性。近年来,直接监测面部运动状态的可连接传感器作为无声语音识别的解决方案引起了人们的关注。虽然面部特征可以在一定程度上补充音频信号,但它们在捕捉音高、音色和声音强度等声学参数方面存在很大的局限性。相反,将传感器直接放置在发声器官区域是一种实现全面声音信息收集的有效方法。用于监测声音信号的传统可穿戴设备通常使用绑带或粘性贴片附着在身体上。然而,它们的刚性和扁平形状限制了实际应用。柔性材料和传感技术的发展为隐形皮肤可穿戴设备铺平了道路。目前,安装在发声器官中的柔性传感技术主要包括石墨烯、柔性表面肌电图电极、压阻和摩擦电。与传统的刚性麦克风相比,这些技术佩戴更舒适,可以无缝融入日常活动中。尽管这些传感器有诸多优势,但它们通常依赖于有线硬件,限制了它们在日常使用中的适应性。

为了克服这些挑战,集成信号处理和传输单元的柔性可穿戴设备对于充分利用各种机电特性的潜力至关重要。微机电系统 (MEMS) 制造技术的进步为改善可穿戴设备的集成带来了希望。一项值得注意的创新是将商用 MEMS 加速度计芯片整合到可穿戴设备中,从而能够连续监测机械声音信号,例如语音、吞咽、呼吸和心脏运动。然而,目前的传感器无法满足宽频带范围和平坦度的要求,限制了信号频谱的能量分布。此外,检测皮肤加速度只能提供肌肉运动模式数据,而忽略了发声器官的关键振动信息。由于缺乏生物特征信息,在监测小幅度肌肉运动时,机械声音信号相对较弱。这种限制对于皮肤组织较厚(例如甲状腺肿大)或喉部受伤的用户尤其不友好。因此,有必要开发一种新的便携式语音交互系统来解决这些问题并提高用户体验和HMI。

本文亮点

1. 本工作提出了一种可穿戴无线柔性贴肤声学传感器(SAAS),能够捕捉发声器官的振动和皮肤运动,从而实现恶劣声学环境下的语音识别和人机交互(HMI)。

2. 该系统采用压电微机械超声换能器(PMUT),具有高灵敏度(-198 dB)、宽带宽(10 Hz-20 kHz)和优异的平坦度(±0.5 dB)等特点。柔性封装提高了佩戴时的舒适性和适应性,同时与残差网络(ResNet)架构的集成显著提高了喉部语音特征的分类,准确率超过 96%。

3. 在多个 HMI 场景中展示了 SAAS 的数据收集和智能分类能力。语音识别系统能够通过深度学习模型以 99.8% 的准确率识别参与者所说的日常句子。

图文解析

图1. 用于恶劣声学环境下语音识别的无线、柔性、可附着式声学传感器。

a 实现HMI的语音识别系统示意图。b 可附着式声学传感系统爆炸图。c PMUT结构示意图。d 处理发声器官振动和肌肉运动信号的步骤流程图,包括信号处理、控制、无线通信和显示终端。e SAAS在语音识别与交互中的应用示意图。

图2. 装置设计原理及特性描述。

a 基于SOI晶片的声学传感器三维结构剖面图。b PZT、AlN、ScAlN及对应三种形状的声学传感器相关参数的有限元仿真对比。c PMUT正面(I)和背面(II)的照片。d 制备的声学芯片的光学显微镜图像和微元件的特写细节。e 制备的声学芯片的Mo/ScAlN/Mo薄膜结构的SEM剖面图。 f 空气中MEMS芯片的电阻抗幅值与相位的谐振频率响应。g 水中封装后的MEMS传感器在低频宽带范围内的灵敏度测试曲线。h 柔性器件在未变形(I)、扭曲(II)、弯曲(III)和拉伸(IV)下的图像显示。

图3. 恶劣声学环境下的语音检测对比实验。

a 安静环境(I)、嘈杂环境(II)和戴口罩(III)下同一项对比测试的照片。b 当受试者在安静环境(I)、嘈杂环境(II)和戴口罩(III)下说“CQU”时,SAAS显示声音信号的时域波形和频谱信息。c 当受试者在安静环境(I)、嘈杂环境(II)和戴口罩(III)下说“CQU”时,商用参考麦克风显示声音信号的时域波形和频谱信息。d 受试者在9种喉部附着位置和动作下的照片。 e 通过 SAAS 在 9 个喉咙附着位置和动作中说“完美”时获得的时域波形。

图4. 基于SAAS的身份识别演示。

a–c音素、声调、同音词分类任务的混淆矩阵。d通过数据采集、深度学习和实时显示实现的身份识别系统示意图。e不同参与者说“hello world”时的声音信息。f身份识别的混淆矩阵。

图5. 使用SAAS控制虚拟游戏和机器狗。

a实时无线HMI控制系统示意图。b吃豆人游戏中语音指令上下左右命令演示。c远程无线控制机器狗通过语音命令执行动作:“站起来”、“跳舞”、“侧翻”、“爬楼梯”。

图6. 基于SAAS的语音识别系统在人机交互中的应用。

a通过数据处理、分类和实时显示实现的交互系统示意图。 b 使用卷积神经网络从参与者的日常对话中收集到的 10 个句子样本的波形和相应的频谱图。c 句子识别任务的混淆矩阵。d 60 个 epoch 迭代过程中训练和测试数据的归一化准确率。e 经过 60 次 T-SNE 算法迭代处理后的特征向量矩阵。f 经过 60 次 T-SNE 算法迭代处理后的特征向量矩阵。

来源:华算科技

相关推荐