Nature Neuroscience | 脑机接口实现语音实时合成,助力瘫痪患者重获自然交流能力

360影视 日韩动漫 2025-04-08 00:10 4

摘要:全球有数百万人因中风、肌萎缩侧索硬化症(ALS)等神经系统疾病导致言语功能丧失(即“构音障碍”或“失语症”)。传统辅助沟通设备(如眼动仪或键盘)速度缓慢,且无法还原自然对话的即时性和情感表达。现有脑机接口(BCI)需等待用户“默念”完整句子后才能解码,存在延迟


撰文 | Qi

全球有数百万人因中风、肌萎缩侧索硬化症(ALS)等神经系统疾病导致言语功能丧失(即“构音障碍”或“失语症”)。传统辅助沟通设备(如眼动仪或键盘)速度缓慢,且无法还原自然对话的即时性和情感表达。现有脑机接口(BCI)需等待用户“默念”完整句子后才能解码,存在延迟问题,且瘫痪患者无法发声,难以提供传统模型所需的语音数据,此外,现有设备无法重现使用者原有的声音特征,取而代之的是机械合成音。过去十年,研究发现大脑感觉运动皮层在语音产生时会编码丰富的发音动作信息(如唇、舌、喉的运动信号)。通过记录这些神经活动,理论上可直接合成语音【1-4】。然而,如何实现“实时、低延迟、高准确率”的合成一直是未解难题。

近日,来自美国加州大学伯克利分校的Gopala K. Anumanchipalli团队在Nature Neuroscience杂志上发表了一篇题为A streaming brain-to-voice neuroprosthesis to restore naturalistic communication的文章,报道了一款无声脑机接口,通过植入大脑的高密度皮层电极(ECoG),实时解码瘫痪患者的无声发音意图,以80毫秒为间隔连续合成语音(低延迟),能再生成用受试者受伤前说话片段训练的模拟其声音的音频,并能实现连续运作。

参与者是一名47岁女性,因脑干中风导致全身瘫痪和构音障碍,仅能发出模糊单音,该团队将脑机接口植入参与者大脑以覆盖左半球言语感觉运动皮层(控制发音的关键脑区如中央前回和中央后回)。他们让参与者默念屏幕上显示的内容,采用RNN-T(循环神经网络转换器)模型,处理80 ms窗口的神经信号(高频伽马波+低频信号),提取发音特征,将语音单元转换为个性化声音。该模型的创新点在于能用文本转语音生成参考音频,解决“无声数据”难题,并能自动判断用户是否在“默念”,减少误触发。此外,还能实现长时解码,连续5分钟无间断合成语音,对未训练的词汇分类准确率高达46%。

综上,这项研究成果标志着脑机接口领域的重大飞跃,首次实现边说边合成,接近自然对话节奏,但当前词汇量有限,长句错误率较高,需更大训练数据,未来或结合无线植入设备,实现全天候使用。

制版人:十一

参考文献

1. Schoenenberg, K., Raake, A. & Koeppe, J. Why are you so slow?—misattribution of transmission delay to attributes of the conversation partner at the far-end. Int. J. Hum. Comput. Stud.72, 477–487 (2014).

2. Krauss, R. M. & Bricker, P. D. Efects of transmission delay and access delay on the eficiency of verbal communication.J. Acoust. Soc. Am.41, 286–292 (1967).

3. Brady, P. T. Efects of transmission delay on conversational behavior on echo-free telephone circuits.Bell Syst. Tech. J.50, 115–134 (1971).

4. Mermelstein, P. Articulatory model for the study of speech production.J. Acoust. Soc. Am.53, 1070–1082 (1973).

BioArt

Med

Plants

人才招聘

会议资讯

学术合作组织

战略合作伙伴

(*排名不分先后)

转载须知

【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。

来源:啊将登胡

相关推荐