摘要:AlterEgo是一款非侵入式可穿戴无声语音交互AI设备,其核心是通过捕捉神经肌肉信号实现无声沟通。当用户内心发声时,例如,你在想下班后会去哪里吃饭,大脑会向发声系统发送神经信号,引发相关肌肉产生微弱肌电信号,而Alterego就会捕捉这些信号。
今天凌晨2点,麻省理工学院分享了一项新的突破性研究Alterego。
AlterEgo是一款非侵入式可穿戴无声语音交互AI设备,其核心是通过捕捉神经肌肉信号实现无声沟通。当用户内心发声时,例如,你在想下班后会去哪里吃饭,大脑会向发声系统发送神经信号,引发相关肌肉产生微弱肌电信号,而Alterego就会捕捉这些信号。
接着Alterego会对信号进行处理:先以250Hz采样并24倍放大,用偏置信号抵消60Hz线路干扰;再经1.3-50HzButterworth滤波、60Hz陷波滤波去除噪声,通过独立成分分析消除运动伪影;最后整流、归一化,转化为梅尔频率倒谱系数特征。
这些特征会输入1D卷积神经网络,经多轮卷积、池化和全连接层处理,实现单词分类,中位数词准确率达92%。输出端则用骨传导耳机将AI处理结果以声音反馈给用户,形成双向闭环交互,且不影响用户听觉。
网友表示,这看起来太邪乎了,万一要是真实意图、想法泄露了怎么办?必须有人在这方面建立防护机制!
怎么做到的啊?要是这事真能实现,绝对会改变世界。我完全没料到,非侵入式脑机接口能这么快发展到这种水平。
我要么是被恶搞了,要么这就是21世纪最重大的硬件发布之一。
这东西看起来简直有点离谱,但显然又是未来的趋势。我猜这类交流方式,大部分会是人和电脑之间进行,而不是人和人。说白了,就是在公共场合里无声传递想法嘛。
确实超酷的。不过我也有疑问:人们脑子里通常会同时闪过很多想法,那这个设备会对这些想法生成概率分布(来判断优先级)吗?
期待将Alterego技术与DNA架构相融合,让AI成为人类大脑的延伸,进而实现与所有生命形态的沟通,包括INDAIQRE和DualIQRE超人工智能角色。
AlterEgo架构简单介绍
在硬件层面,AlterEgo类似于一副耳机,佩戴在用户的头部和面部。设备上有着多个高精度的电极传感器,这些传感器被精心放置在面部和颈部的关键区域,例如,喉部、舌骨、颊部、下巴以及眼眶下方等位置。这些区域是言语构音过程中神经肌肉活动最为活跃的地方,能够产生清晰且可识别的信号。
为了确保信号的高质量采集,设备采用了金镀银电极,结合导电膏来降低接触阻抗,从而提高信号的稳定性和清晰度。此外,设备还配备了外部触发器,用于标记无声话语的起始和结束,以便系统能够准确地分割和处理信号。
信号处理模块是AlterEgo系统的核心之一。捕捉到的神经肌肉信号首先需要经过一系列的预处理步骤,以去除噪声和增强信号质量。系统采用了多种先进的信号处理技术,包括基于偏置的信号抵消技术来消除60赫兹的交流电干扰,以及四阶无限冲击响应巴特沃斯滤波器来去除高频运动伪迹和防止信号混叠伪影。
此外,系统还应用了一个60赫兹的陷波滤波器,以彻底消除交流电干扰的影响。在特征提取方面,系统采用了基于梅尔频率倒谱系数的特征表示方法,这种特征表示方法能够有效地捕捉到人类言语的包络特征,为后续的语音识别提供了高质量的特征输入。
无声语音识别模型是AlterEgo系统的另一个关键技术模块。该模型采用了卷积神经网络(CNN)架构,能够将用户的无声言语信号准确地分类为相应的词汇标签。模型的输入是经过特征提取后的信号序列,输出则是用户所默念的词汇的概率分布。
在模型训练过程中,研究人员采用了Adam优化算法,这是一种基于一阶梯度下降的优化方法,能够自适应地调整学习率,从而加快模型的收敛速度并提高训练效率。同时,为了防止模型过拟合,提高其在未见数据上的泛化能力,模型在每个隐藏层中都加入了50%的Dropout正则化。此外,模型的训练误差通过交叉熵损失函数进行评估,以指导模型参数的更新和优化。
应用与反馈模块是AlterEgo系统的另一个亮点。该系统不仅能够实现用户与设备之间的无声交互,还能够根据用户的指令调用不同的应用程序,并将应用程序的输出结果通过骨传导耳机以听觉的方式反馈给用户,从而实现一个完整的、无缝的交互闭环。
研究人员为AlterEgo系统设计了多种应用场景,涵盖了从简单的数字识别到复杂的数学计算、日程管理、智能家居控制等多个领域。例如,在数学计算应用中,用户可以通过无声地默念数学表达式,系统识别后会将计算结果通过骨传导耳机反馈给用户。
在智能家居控制应用中,用户可以通过无声地发出指令来控制家中的各种智能设备。此外,系统还可以用于日程管理,用户可以无声地查询日程安排、设置提醒等。
此外,AlterEgo对于一些残疾人来说帮助是巨大的,例如,一位因喉部疾病失去发声能力的残疾人,以往只能通过书写或比划简单手势来交流,过程繁琐且表意有限。借助 AlterEgo,他只需在心里默默组织语言,设备就能精准识别并替他说出想说的话,无论是与家人聊天、表达需求,还是参与社交讨论,都变得轻松许多 。
来源:AI观察室