摘要:预测编码理论作为一种解释大脑信息处理的理论框架,近年来在神经科学、认知科学与人工智能领域引起了广泛关注。拉杰什·拉奥(Rajesh Rao),现任华盛顿大学计算机科学与工程系教授及神经技术中心联合主任,早在25年前便前瞻性地运用预测编码理论解释视觉系统的运作机
文 | 追问nextquestion
预测编码理论作为一种解释大脑信息处理的理论框架,近年来在神经科学、认知科学与人工智能领域引起了广泛关注。拉杰什·拉奥(Rajesh Rao),现任华盛顿大学计算机科学与工程系教授及神经技术中心联合主任,早在25年前便前瞻性地运用预测编码理论解释视觉系统的运作机制。
在本期播客中,拉奥分享了他对预测编码和脑机接口领域的最新研究成果与见解,并探讨了他对大语言模型、大脑研究的未来方向等多个领域的思考,此外,他还讨论了对破译古印度文字的兴趣以及相关的工作。以下内容整理自拉奥与保罗·米德尔布鲁克斯(Paul Middlebrooks)2024年12月在“大脑灵感”(Brain Inspired)的对谈。
保罗·米德布鲁克斯
Paul Middlebrooks
卡内基梅隆大学助理研究员,
播客“Brain Inspired”主理人
他在匹兹堡大学马克·索默实验室获得认知神经科学博士学位。随后在范德堡大学Jeffrey Schall, Geoff Woodman, and Gordon Logan实验室从事博士后研究,研究运动皮层和基底神经节神经群活动如何影响自由行为小鼠的自然行为。
拉杰什·拉奥
Rajesh Rao
华盛顿大学计算机科学与工程系教授及神经技术中心联合主任
他与Dana Ballard共同提出了 1999 年的脑功能预测编码模型。他在感知和决策的贝叶斯模型方面做出了贡献。在脑机接口领域,他于 2007 年首次展示了直接通过大脑控制人形机器人的技术。他的研究兴趣涵盖计算神经科学、脑机接口和人工智能以及印度河文字和印度古典绘画。 他获得的奖项包括古根海姆奖学金、IEEE 研究员奖、富布赖特学者奖、NSF CAREER 奖、ONR 青年研究员奖、斯隆管理学院教员奖学金以及 David and Lucile Packard 奖学金。著有Brain-Computer Interfacing,合著有Probabilistic Models of the Brain,Bayesian Brain。
01 预测编码的起源保罗:预测编码的理论源头通常会被追溯到亥姆霍兹(Hermann von Helmholtz)基于推理和预测的感知理论。然而,就预测编码相关的神经元的研究而言,预测编码的起源是怎样的呢?
▷图:艾宾浩斯错觉(Ebbinghaus illusion,左)和缪勒-莱尔错觉(Müller-Lyer illusion,右)都可以用亥姆霍兹的感知理论解释。他提出了一个革命性的观点,称为“无意识推理”(unconscious inference),强调感知不仅仅是感官输入的直接反映,而是大脑通过推理和预测对感官信息进行解释和构建的结果。亥姆霍兹的理论暗示了感知的预测性,即大脑会基于过去的经验和当前的感官输入,预测未来的感官信息。这种预测性机制在现代认知科学中得到了进一步的发展,例如预测编码理论(predictive coding)。图源:@大峰_Design
拉杰什:那时我跟随我当时的导师巴拉德(Dana Ballard)在罗切斯特大学攻读博士学位。我和导师的相遇颇具戏剧性。原本我要攻读理论计算机科学博士,但某天在复印室偶遇巴拉德教授。他说:“我有个暑期研究助理职位,要不要试试?”我答应了,从此迷上了计算机视觉研究。我们当时在破解一个难题:如何通过视觉皮层表征(如Gabor滤波器)重建遮挡物后面的物体。
我们的初步思路是借鉴视觉皮层的表征机制。我们尝试使用Gabor滤波器的回应重建遮挡物之后的物体,结果发现,这些滤波器不能重建图像,因为它们存在非正交性问题,导致简单线性组合失效。后来我们思考能否在重建误差成本函数上进行梯度下降,根据正交滤波器的响应重建图像。这就引出了优化神经元回应的想法。
▷图:Gabor滤波输出示例(上)。Gabor变换是一种短时加窗Fourier变换,Fourier变换是一种信号处理的有力工具,可以将图像从空域转换到频域,并提取到空域上不易提取到的特征。但是Fourier变换缺乏时间和位置的局部信息。Gabor变换简单理解起来就是在特定时间窗内做Fourier变换,是短时傅里叶变换中窗函数取为高斯函数时的一种特殊情况。因此,Gabor滤波器可以在频域上不同尺度、不同方向上提取相关的特征。另外,Gabor函数与人眼的作用相仿,所以经常用作纹理识别上,并取得了较好的效果。如果在二维空间中,使用一个三角函数(a)(如正弦函数)与一个高斯函数(b)叠加,我们就得到了一个Gabor滤波器(c)(下)。图源:@Yiwei Zhang
保罗:预测编码的大致想法是怎样的?我先说说我的理解。预测编码的基本原理是,你在大脑前端有一些预测的想法,然后你通过大脑向后发送这些想法。以视觉为例,那些传入的感官信号就会与这种预测相遇,这时预测与这些信号之间就会产生差异,这一差异会再度向前传播。是这样吗?
拉杰什:这就是传统预测编码模型的基本想法,传统视觉模型(如休伯尔-维泽尔理论[Hubel-Wiesel theory])强调前馈传递:从初级视觉皮层(V1)到颞下皮层(IT)的逐层特征提取,最终触发认知和行为。但当我们审视皮层解剖结构时,每个脑区既发出前馈连接,也接收来自高级脑区的反馈连接。这一想法可以追溯到休伯尔与维泽尔。传统想法通常认为感知是通过前馈传递完成的,一个图像闪过时,就会有从V1、V2、V4视区一直到下颞叶皮层的前馈传递,而后这一图像被识别。基于相关的认知,如果你作出关于行动的决定并按下行动按钮,行动就会随之而来。
保罗:如果只能看到物体的边缘部分,比如只看到了桌子的腿,还能认出那是一张桌子吗?
拉杰什:这种分区域而治的现象在人工智能领域也屡见不鲜。整个人工智能领域被划分为不同的子领域,有人在做视觉,有人在做运动控制机器人,还有人在做基于逻辑的高级人工智能。这与神经科学和认知科学的研究现状非常相似,人们总是专注于对特定区域和模式的研究。
学界对反馈连接的普遍忽视实在令人震惊。如果你观察每个皮层区域,就会发现它不仅会发送前馈连接,还会接收来自高阶区域的反馈连接。但当时著名的视觉神经科学家认为反馈连接的功能不过是调控注意力,对于对象感知而言只是次要的。
预测编码理论扭转了这种认识,它指出大脑的根本任务是建立世界的内在生成模型,大脑持续生成假设并与感官输入比对。二者之间的不匹配被称为预测误差(predictive error),预测误差通过前馈通路反馈回去,被用来更新预测。也就是说,前馈通路实际上并不携带原始信号,而是携带预测误差。我认为这是一个重大发现,与传统思维不同。
保罗:这是一个史无前例的洞见吗?
拉杰什:这个想法在当时实际上已经呼之欲出了。我当时正在阅读戴维·芒福德(David Mumford)等人的论文,他在其中谈论丘脑与皮层以及不同皮层区域之间的联系。还有詹姆斯·阿尔伯斯(James Albus),他在人工智能的背景下讨论这个问题,并就小脑做了一些工作。他对人工智能和机器人控制器中的层级结构也有非常有趣的想法。类似的想法最终可能会追溯到唐纳德·麦凯(Donald MaKay),他在20世纪50年代写过一篇论文,叫做《自动机的认识论问题》(The epistemological problem for automata)。他在其中提出这样的想法:如果你能把误差信号从一个模块发送到另一个模块,就能在层级结构的不同层级之间建立抽象表征。
我们所做的工作本质上是将许多已经隐秘存在的想法加以利用,并以数学方法来实现这些想法。我们发现,如果将神经反应解释为预测误差,就能更好地解释一些令人费解的效应,如末端抑制(end stopping)、上下文调制(contextual modutation)、方向(orientation)以及对比效应(contrast effects)等。仅凭前馈模型则很难解释这些效应。
保罗:麦库洛克和皮茨(McCulloch-Pitts)也强调反馈的重要性。他们在绘制神经元小图时,不同神经元构成一个反馈环路(feedback loop)。
▷McCulloch-Pitts Neuron,第一个神经元计算模型,首先完成 I 和 w 的线性加权求和,然后再计算激活函数的结果。这本质是一个线性分类模型,作用是对输入进行二分类。这符合生物神经元的特点,生物神经元对输入信号所产生的输出就是:兴奋、抑制。那么,我们就可以通过MP神经元模型预测出样本的目标。图源:kenhub.com
拉杰什:是的,他们的确在强调环路的重要性。当时有很多人试图用动力系统理论来解析这些环状网络的特质,但将这种基础理论研究与解剖结构相对应,才是真正的突破。我们现在所做的是试图将其映射到解剖学上,尤其是映射到大脑皮层上。大脑皮层可分为六层,前馈连接进入中间层,即第四层(内颗粒层),然后是来自浅层的反馈。
▷皮层不同层级的细胞与成像。图源:kenhub.com
费勒曼-范-埃森层级结构(Felleman & Van Essen Hierarchy)或许有助于理解这一点。如果我们将费勒曼-范-埃森层级结构解释为进化过程中产生的一个生成模型,用于对世界进行本质建模。这就意味着你可以从这个生成模型中抽样,并生成动物所面临的情境及其与环境相互作用的例子,推理就是更新你所拥有的关于世界的预测。我认为其中的关键想法是,推理是在所有不同皮层区域的群体水平上快速更新的神经反应。在较慢的时间尺度上,这些不匹配或误差则可以用来更新权重、学习或参与突触可塑性。
▷费勒曼-范-埃森对猕猴大脑视觉区域的层次结构。图源:semanticscholar.org
02 预测编码理论的过去与现在保罗:你最有名的论文是1999年的论文*,那一定是你被引用次数最多的论文吧。你在一次演讲中鼓励研究生们说:“看,坚持你的想法,最终也许就会开花结果”。
*Rao, Rajesh PN, and Dana H. Ballard. "Predictive coding in the visual cortex: a functional interpretation of some extra-classical receptive-field effects." Nature neuroscience 2.1 (1999): 79-87.
拉杰什:我想表达的是,这篇论文能够发表的原因之一是它提供了一种前瞻性的想法,例如,基于误差神经元与下一皮层区域之间存在前馈连接预测它们存在于大脑皮层的第二层(外颗粒层)和第三层(外锥体细胞层);或者,能否观察到更深层,例如第五层(内锥体细胞层)的神经元?它们会产生怎样的反应?
根据预测编码模型,深层神经元存储的是对身体状态或运动反应的评估。当时验证其预言的实验技术尚不成熟。直到十年后,随着光遗传学和双光子成像技术的突破,学界才开始系统性验证这些假设。现在它已成为连接主义与贝叶斯推理的重要桥梁。
如果把时间快进到2000年末,就会发现那篇论文的引用次数开始不断攀升。如今,越来越多的人试图从不同方面研究这一理论。弗里斯顿(Karl Friston)在这篇论文发表10到20年后在news & views上撰写的文章中谈及这篇论文对他的研究的影响*。后来他提出的自由能原理(free energy principle)以及最近广为人知的主动推理(active inference)都是在此基础上的延伸。
*Friston, Karl. "Does predictive coding have a future?." Nature neuroscience 21.8 (2018): 1019-1021.
保罗:当时你能够预测到这篇文章的影响力会如此之大吗?
拉杰什:当时我并不相信这篇文章会激发人们去做实验,其实论文最初备受质疑,Nature Neuroscience的编辑曾透露首轮审稿人拒绝撰写评论,也许是因为这一理论有悖于他们对大脑皮层工作原理的传统思考。
直到科赫(Christof Koch)和波吉奥(Tomaso Poggio)用福尔摩斯的《失马得马》(The Adventure of Silver Blaze)中“猎犬未吠暗示熟人作案”的隐喻,来阐释预测编码通过"未发生的预期"揭示深层信息。自此,学界才开始真正理解其价值。因此,这篇文章在发表初期文章的引用量实际上很少。10到15年之后,这一理论才真正流行起来。当然,反对者一直都在,事实上至今仍有很多人不相信反馈真的会影响实际感知。
▷图:侦探问福尔摩斯还有没有什么其他要点,福尔摩斯说:晚上狗的行为很奇怪。侦探不解:那只狗在夜间明明什么也没做。夏洛克·福尔摩斯回答:这就是不寻常之处。预测编码的价值之一就在于,它可以通过关注"本应发生但未发生的事"揭示被忽略的信息。图源:libro.fm
然而,我认为现在已经有明确的证据表明,在感觉运动任务中,动物做出一个运动动作之后,会有一个推理副本(inference copy)让其做出预测。大卫·施耐德(David Schneider)实验室和格奥尔格·凯勒(Georg Keller)实验室提供的大量证据表明*,当运动或四肢按压杠杆并产生听觉反应时,听觉皮层中能够发现类似预测误差信号的抑制。纯粹的感觉实验中也会看到类似预测误差的报告。
Keller, Georg B., and Thomas D. Mrsic-Flogel. "Predictive processing: a canonical cortical computation." Neuron 100.2 (2018): 424-435.
保罗:这给我们什么启示?预测编码尚未被普遍接受,但技术进步正在验证其假设?
拉杰什:科学理论的使命正在于此。好的理论应具备可证伪性。作为一名理论家,我们的工作就是提出足够明确的理论,并将其与解剖学联系起来。在此过程中,也许一些新的数据能够激发新的理论,并引领这一领域向前发展。只要理论是合理的,与现有数据相匹配,提出新的理论就不足为惧。就像我们当年用"末端抑制"和"上下文调制"等现象,结合解剖证据构建预测编码框架,即使部分假设被证伪,只要推动新实验和新理论,就是成功。当前研究者应继续整合实验数据与计算建模,同时从演化角度追问大脑的根本任务。
保罗:你是否认为预测编码是某种关于大脑运作模式的通用理论?
拉杰什:我认为这只是智能拼图的一部分,别忘了ChatGPT和Transformer模型也基于预测机制。预测很重要,因为动物必须预测才能生存。在进化的某个阶段,大脑开始建立世界模型,以便能够预测即将出现的情境。
无论是在人工智能还是自然智能中,世界模型或预测模型都能带来显而易见的好处。这一模型有助于应对世界的不确定性,并弥补从肌肉传感器到大脑的延迟,从而提高存活的几率。此外,如果你有能力预测并拥有模型,那么你就可以做规划。这样一来,你就有能力做出比被动反应生物更复杂的行动。我认为,不论是从计算视角出发,还是基于演化和生物学的视角,建立这样的一个内部模型都是必要且有益的。
03 将运动引入预测编码模型保罗:在此之后,你开始了对皮层的感觉运动理论的研究。这一转变是如何发生的?
拉杰什:原因是多方面的。当我重新思考大脑存在的演化意义时,通常会追溯到一些最原始的生物行为——比如趋利避害或者觅食行为。在这个过程中,需要借助感知来尽量减少误差。因此,感知与运动紧密相连,运动可以让生物改变位置或对环境的不同部分进行采样,感知则告诉它们运动成功与否。
保罗:从时间顺序来看,是先感知后运动吗?
拉杰什:两者互为因果。在某种意义上可以说是先有感知,例如生物具有一个关于营养不足的内部感知,这一感知可能会驱使它行动。而当它移动并摄入一些营养物质后,内部状态会发生改变。一个只有感知而没有运动的生物是不可理喻的。即便是捕蝇草也有抓住昆虫并消化的动作,它只是不会像生物那样在空间中运动。
保罗:回到这两篇论文之间长达25年的鸿沟,将运动引入预测编码模型似乎是一个大的突破。我们刚刚详细讨论了运动的重要性。你能否总结一下,你是如何将运动融入预测编码框架的?
拉杰什:我认为,真正促使我走上这条道路的第一项观察结果是,即使是初级视觉皮层V1、初级体感皮层S1或初级听觉皮层A1这样的初级感觉区域中,也会观察到运动的影响。卡兰迪尼·哈里斯(Brooke Holey)实验室和戴维·施耐德(David Schneider)实验室的论文表明*,传统的感觉区域中能够观察到与运动相关的反应。不仅如此,从解剖学角度来看,初级感觉区域(如V1、A1、S1、躯体感觉皮层)的第五层细胞会向皮层下运动区域发送轴突。V1将轴突发送到上丘,A1将轴突发送到下丘。
*Holey, Brooke E., and David M. Schneider. "Sensation and expectation are embedded in mouse motor cortical activity." Cell reports 43.7 (2024).
有趣的是,信息不仅仅是从大脑皮层的第四层发送到第二层或第三层,而后到达第五层,第五层也会将信息传回第二层和第三层。表层和深层之间于是形成一个循环。如果表层从第四层接收感官信息,深层将信息输出到运动中心,那么每个皮层区域内都会形成一个感觉和运动之间的循环。
强化学习中使用的马尔可夫决策过程(Markov Decision Process,MDP)的思想有助于澄清感觉与运动之间的循环。简单来说,强化学习认为智能体的每个动作都会改变环境状态,而下一个状态仅取决于当前状态与动作。这构成了世界运行的"前向模型"(Forward Model)。与此同时,策略函数会根据当前状态选择最优动作。当我们将世界模型(预测)与动作策略(决策)结合,就形成了“预测→行动→再预测”的智能循环。
▷图:马尔可夫决策过程(Markov Decision Process, MDP)是数学和计算机科学中用于建模序贯决策问题的一种框架。它是强化学习(RL)的基础理论之一,广泛应用于人工智能、控制理论、经济学和机器人学等领域。MDP的核心思想是:在马尔可夫性的假设下,通过策略选择动作,以最大化累积奖励。
强化学习的目标是学习策略(policy),即给定世界状态中的最佳行动模式。如果将顶部的模型和底部的策略结合起来,就会得到一个根据你的感觉输入预测下一个状态的函数,并形成预测与行动之间的循环。任何皮层区域的感官运动模块都在自己的时空尺度上按照这种模式运行。
最后的问题是,不同的层次结构和不同的大脑皮层区域之间是如何相互作用的?为什么会有反馈连接?事实证明,从计算的视角来看,如果你想以一种非常丰富的方式模拟世界,那么你需要做的就是让较高层次调节较低层次的动态。大脑需要根据任务的不同,改变低层计算的函数。例如如果你的任务是开车去某个地方 ,那么你要加载的程序就是上车、确定目的地然后开车。你唯一需要做得是将已经学习到的策略植入到当前的目标中。加载新程序可以通过自上而下的调节来完成。也许前额叶皮层会将这些程序加载到低级区域。
保罗:那么前额叶皮层是怎么形成的?
拉杰什:我们的假设是,所有区域最初都在各自的时空尺度上运行,而随着皮层层级的升高,信息处理的时间尺度逐渐延长,抽象程度递增。这时会有一群神经元对当前的情境或任务进行编码,特定目标在前额叶皮层被实例化并被维持,直到目标实现为止。在维持目标的同时,前额叶皮层还会调节包括躯体感觉区域在内的其他所有与实现目标相关的区域。因此,即使是躯体感觉皮层、视觉皮层、听觉等初级感觉区域也有来自高级区域的背景信息。
在不同尺度运作的皮层区域会构成层级结构。整个过程中,复杂任务被分解为层层嵌套的子任务,直到脊髓层面对肌肉的毫秒级控制。这就是脊髓环路的工作原理。随着不同区域的层级递增,子任务被逐层实现,进而向更高层级翻转,进入下一个目标。
▷前额叶皮层。图源:flintrehab.com
保罗:这种目标序列编程机制从何而来?
拉杰什:对目标进行编程是通过“学习”实现的,人工智能领域将之称作课程学习(curriculum learning)。我们人类在出生后 ,甚至在母亲的子宫中时,就开始学习这些模块。从胎儿期的肢体运动尝试,到幼儿期的抓取练习,我们逐步积累动作基元库。简单技能组合成复杂能力。前额叶的抽象目标建构,正是基于这些底层运动原语的丰富储备。
保罗:我想我们都有过特定目标完成之后的迷茫,这种感觉会持续到下一个目标的出现。不同目标之间是如何转换的呢?前额叶皮层如何参与其中?
拉杰什:在当前的模型中,你首先要有一个高层级的目标,并将之向下分解,随着在每个更高层次的抽象动作或策略中向下延伸,它会在较低层次生成一个函数。该函数的输出基本上是状态到动作的映射。然后,每个实际的行动都是另一个抽象行动的子目标,对于更低级的状态而言,这一实际行动又是一个需要继续分解的抽象行动。抽象行动会不断分解下去,直到脊髓。这意味着大脑的不同层级在复制相同的模块。这似乎印证了蒙卡斯特尔的想法:大脑皮层中有类似的东西,不同的大脑皮层区域的算法可能是相似的。
这种想法对于一名理论家而言有不可抗拒的诱惑力。当前的核心挑战在于:能否在计算科学框架下构建与之等效的数学模型?尽管尚无法确证大脑是否真实存在此类生物机制,但这并不妨碍我们进行理论建模的探索。值得注意的是,主动预测编码理论展现出跨问题域的应用潜力,然而该机制与神经生物系统的实际运作模式之间的对应关系,仍需通过跨学科实验进行系统性验证。
我所相信的是一种更为广泛的观点,即不同皮层区域的区分不是依靠其功能,而是在于它们与什么区域相联系。实际情况并非如传统的观点所认为的,不同皮层区域有着截然不同的编码方式,有些人可能觉得视觉皮层在进行边缘检测,而听觉皮层不可能进行边缘检测,运动皮层则更不相同。然而,从感觉和运动的角度来思考,就会发现不同区域总是同时包含着二者,只是在某些区域,感觉或运动被着重强调,但它们仍然具有感觉推理和运动控制的基本原理,而且在多个层面上共同运作。
04 增强技术与脑机接口保罗:鉴于你刚才的描述,前额叶皮层中有更高层次、更抽象的目标,这一目标在更低的层次上实现。从演化的视角来看,人类的下一步会走向何处?我们会变得更加抽象吗?演化的下一个里程碑是什么?
拉杰什:在预测这方面,人类总是变现很差,我们对未来发展大加猜测,但历史证明我们总是猜错。
话说回来,至少就人类进化而言,从生物学的角度来看,我们可能不会增加新的大脑皮层区域或新的大脑结构,但在使用工具、文化知识和工具方面,我们确实取得了惊人的进步。从人类自我增强的角度来思考,人类最初利用石头等工具来自我增强,我们还使用轮子来提高移动速度,最近我们能够用飞机飞行。与此类似,由于记忆容量的局限性,我们使用书写和语言将事情记录下来。
如果这些都属于工具使用,那么我们当然可以借助当前已有的设备增强知识和信息获取能力。脑机接口或许就是利用当前的设备进行自我增强。如果大脑本身在生物学上的运行速度和记忆能力是有限的,那么用人工记忆、人工处理能力和人工通信能力就能补足这种不足。但这会涉及很多伦理问题,大多数学者不想过多涉及这一领域。
保罗:你是如何将伦理考量融入研究中的?
拉杰什:我是一个神经技术中心的合作领导人,我们中心有一个神经伦理学团队。每个开发脑机接口应用的工程团队中都有一名伦理学家,负责向他们积极反馈最终用户会如何看待这个项目以及项目的长期影响。作为工程师,我们对建造伟大或新颖的事物感到兴奋,但我们并不能像训练有素的伦理学家那样预见后果。
很多时候,使用设备的患者不能提供明确的描述,这时候伦理学家的访谈就有必要。患者可能会说自己失去了主观能动性,或患者的家属报告说患者性情大变。迫在眉睫的任务就是如何阻断这种变化,让患者重拾能动性。通过伦理学家来找到这些问题的答案,能帮我们在问题变得更糟糕之前找到其解决方法。往往这是技术商业化之前亟需解决的问题。
保罗:这在学术研究中也是悬而未决的问题。如果我在大脑里加入脑机接口或某种假肢后性情大变,那么这到底是假肢的错,还是我自己的错?谁该为此负责?
拉杰什:这些一直以来都是争论不休的问题,脑机接口和人工智能让这些问题变得更加棘手。
05 神经协同处理器保罗:你当前在做的是神经协同处理器。可以简单介绍一下相关的研究吗?
拉杰什:我认为,当前谈论脑网络,即脑与脑之间的直接交流,还为时尚早。但如果我们接受这个挑战,就应当检视当前的技术能做什么 ,以此来促进脑对脑交流的发展。脑电图或许是很好的开始。
脑电图可以用来解码一些简单的信息,例如,当你看着一个闪光灯——我们称之为稳态视觉诱发电位——借助脑电图可以解码你盯着它看的频率。如果你盯着两盏不同的闪光灯,其中一盏会触发你视觉皮层的振荡,我们就能从中解码你的意图;如果你正在想象做某个动作,比如移动你的手,脑电图就能从运动皮层中解码出这一意图。此外,我们还可以用经颅磁刺激直接向大脑传递信息。
保罗:经颅磁刺激就像是在大脑外加了一个线圈,然后对准大脑的一小部分发出非侵入性的、无损伤的脉冲。这些脉冲可能会影响原有的思维或行为。
拉杰什:特别是当脉冲被送到视觉皮层时,你会看到类似于小光点或条状物的闪光,也就是光幻视。我们做了一些概念验证,并发表了几篇论文,但并不意味着可以将这项技术商业化,这些设备太笨重了。然而,如果能够在不同的人身上连接脑电图与经颅磁刺激,它们就能刺激大脑并记录大脑的信息,这就形成了双向脑机接口。我们可以从一个大脑记录信息,经解码编码后传递给另一个大脑,并实现真正意义上的脑际通信系统。这就是我们所说的“增强”。现在,我们利用神经技术来增强人脑的交流和处理信息的能力。
▷图:《黑客帝国》剧照。剧中对未来脑机接口和脑际通讯技术的畅想,即便到今天也摄人心神。“你是选择红色药丸,还是选择蓝色药丸?”图源:《黑客帝国》
保罗:我们当前发展到了什么阶段?未来人类会是怎样的?
拉杰什:我认为,从某种意义上说,当前正在做的是神经协同处理器。也就是说,一种设备可作为大脑的辅助工具,既能解码来自大脑的信息,又能将信息编码传回大脑。
保罗:这意味着它在聆听大脑的声音,然后按照算法对其进行编码并将大脑的内容进行分类。这是一个信号传递过程,还是说它能理解信号?
拉杰什:大脑协同处理器必须内置某种形式的人工智能。我们提出的神经协同处理器是一个人工神经网络。这本质上是生物神经网络与人工神经网络的交互系统,两者需要协同适应。当前面临的挑战是,它们如何共同适应以真正实现目标?
从医学视角来看,如果想要替代失去的功能,比如有人中风了,你想让他恢复运动功能,那么这个设备就可以通过刺激脊髓替代受损的皮层功能。此时,人工智能需要自我训练,同时患者也需学习控制这个替代回路。这里有一个核心的人工智能问题,如何确保人脑与这种人工设备能够实现共同的目标?例如,当患者无法自主抓取物体时,设备通过视觉误差信号(如目标物位置偏差)触发脊髓刺激。理论上可采用反向传播算法训练人工智能——但难点在于反向传播需通过患者身体和大脑完成,这显然不符合传统人工智能训练范式。
在理想情况下,如果你想训练提供刺激的神经网络,就必须以某种方式获得误差信号。不幸的是,误差信号现在处于外部任务空间中。为了能够完成这一任务,人工智能需要一个内部模型,或者说前向模型。你的大脑就是这样一个前向模型。接下来对它进行刺激,会导致你的大脑动力学以特定方式运动,如果你能预测这种动态变化,就能想出实现特定目标的最佳刺激方式,使其变成了一个控制问题。
保罗:作为神经科学家,我想大脑最神奇的地方之一就是它的适应能力很强。那么大脑会进行错误的学习吗?这一点可以检验吗?
拉杰什:这实际上是一个非常重要的问题,尤其是在感觉刺激领域。例如,人们试图通过人工刺激躯体感觉皮层恢复触觉。我们是否应该让刺激尽可能自然?当你刺激躯体感觉皮层时,病人通常会说,我感觉这与我用自己的手触摸时产生的触觉感受不一样。有时候研究者会说,你只是还不习惯。如果你的大脑一直接收这些新奇的信号,它们就会成为一种自然触觉。
保罗:这就像训练,就像我试图说服我的孩子们:“别担心,继续练习,会越来越容易的”。但这个过程很痛苦。
拉杰什:是的。痛苦感在此起着关键作用,因为如果你未能传递"自然化刺激",学习过程可能变得异常漫长。这里存在权衡:若能以某种方式使用大脑的"语言"——即通过电刺激、光刺激等方式传递脉冲,使其更易被大脑解析——相较于人工脉冲集式的刺激,学习速度可能大幅提升。我认为这是个值得探讨的问题。
保罗:那么,这些刺激更像是噪音,还是世界的自然统计?
拉杰什:这要参考特定区域的神经元从其他神经元接收信息的方式。例如,如果已知在群体水平上存在特定频率的活动模式(如β频段振荡),就可以考虑在振荡的特定相位施加刺激,或尝试与这种振荡同步。这可能比不考虑脑区当前状态随意施加刺激更有效。关键在于必须同时进行记录和刺激。不能只是刺激脑区,还必须通过记录了解该脑区正在发生什么,然后根据实时情况调整刺激参数,以持续传递可理解的刺激信号。
保罗:你刚才提到需要以一种特定脑区期待的方式输入刺激,这是一种非常具有预测编码意味的想法。
拉杰什:是的,这是一种让大脑更快学习的方法。你可以忽视大脑的反应,只是不停地输入,大脑最终可能会理解这种刺激模式。问题是,这个过程可能非常漫长。因此,在提供刺激的过程中,对大脑区域发生的情况进行反馈是有意义的。
保罗:应当如何研究大脑与这个向大脑输入信息的外部设备之间的相互作用呢?
拉杰什:神经协同处理器是解决这个问题的一种方法,即如果你能够调整提供刺激的神经网络,使外部任务空间中的误差最小化,那么你就能减轻大脑的学习负担。这不是一个稳态系统,我们称其为“共适应系统”。如果只有单方具有适应性(如大脑自适应而刺激模式固定),学习压力将完全由大脑承担。若双方都具备适应能力,则挑战在于能否使两者优化相同的成本函数或目标函数——这正是构建协同适应、共同进化系统的核心工程难题,也是未来人工智能与脑机接口一起发展的可能方向。
保罗:在神经协同处理器方面,你还有什么需要补充的吗?
拉杰什:神经协同处理器的想法与我们早期做的脑对脑交流工作有关。经颅磁刺激并不是一个全新的想法。我们的真实想法是,科幻小说中关于心灵感应的讨论由来已久,随着生物识别技术不断进步,越来越多的公司对其产生了兴趣,现在也许可以尝试将之带入现实。有趣的是,如果在多名患者身上植入脑机接口,可能真的会出现非常原始的脑对脑交流。因为只要你有能力进行刺激,就可以把非常简单的信息从一个人的大脑传送到另一个人的大脑。一旦这被证明可行,我们就向实现心灵感应迈出了一步。
06 大语言模型的得与失
保罗:当前人们会基于特定的人工智能模型假设大脑就是如此运作的,然后将目前正在运行的人工智能模型映射到大脑过程中,并经常发挥作用。这是否影响了你对大语言模型的思考?
拉杰什:是的,当相关论文发表的时候,我被深深吸引住了。其核心思想就是预测编码,只是他们没有利用预测误差进行推理,内部表征也没有更新,但学习显然是由预测误差驱动的。其分层架构同样引人注目——通过软注意力层逐步构建动态表征——每个时间步都将表征传递至所有层级,规模极其庞大。这种纯基于预测的人工系统仅通过预测下个词语就能实现如此成就,实在令人着迷。它甚至没有循环反馈结构,也就是说,这不是一个回归模型(regressive model)。实际上,它同时处理过去与未来的信息。这与在主动预测编码模型的感觉方面类似,感觉处理模块持续基于先前状态预测未来,但缺失动作生成模块。
在主动预测编码架构中,除预测网络之外,还有一个策略网络(或控制网络)控制着下一个输入的生成,二者密切互动。根据任务的不同 ,控制网络会向预测网络提供行动信息,这正是Transformer中所缺失的。近期将强化学习引入Transformer的尝试,可视为控制器的回归。更值得注意的是,研究表明Transformer实现了某种超网络(hyper networks)机制——这正是我们主动预测编码模型的核心:高级皮层通过超网络调控低级皮层的功能运算。
保罗:我想了解你对Transformer这个深度学习模型架构的看法。
拉杰什:我认为它们很棒但不够完善。作为预测模型,其捕捉世界统计规律、物理动态的能力卓越,但不足以构成真正的智能。正如Paul Cisek和Buzsaki等学者指出的,智能本质关乎行动与运动。缺乏控制模块(如ChatGPT等Transformer模型不具备能动性感知)是其根本缺陷。
保罗:如何实现能动性呢?
拉杰什:对于能动性而言,必须通过与环境交互的行动能力获得。我们因能作用于世界(包括言语这种运动行为)而建立能动性——行动引发后果,通过观察后果与目标达成的关系,逐步构建"我能改变世界"的认知。而纯预测的系统缺乏以行动引导预测、实现目标的机制,因此难以具备真正的能动性。
保罗:你认为能动性能够被建构起来吗?
拉杰什:是的,我认为任何开始与世界互动的系统,其所具有的与环境交互的行动能力和目标生成机制都与能动性有关。能动性需要策略或控制系统,以及一个与之相匹配的世界模型。
07 大脑研究的未来方向
保罗:早些时候,我们只能记录单个神经元的活动。当时的技术还不足以测试预测编码理论框架下的假设。后来,神经元的连接组学发展起来,现在,我们有了超高密度记录技术,神经元记录技术,除此之外,我们还有人工智能模型和强大的算力。这些技术突破中,你认为哪项最具革命性?
拉杰什:这是个棘手的问题,选择其中一个很可能会得罪一大批其他领域的同行。对理论神经科学家而言,这是黄金时代,也是思考更大规模理论的大好时机,毕竟,有如此多的数据可供使用。
我读研究生的时候,只有芒福德的书和论文,还有科赫和乔尔·戴维斯(Joel Davis)写的一本叫做《大脑大规模神经元理论》(Large-Scale Neuronal Theories of the Brain)的书。这些理论在当时就已经存在了,只是没有数据加以验证。如今情况截然不同:某天我可能沉浸于大规模神经记录数据,验证预测编码理论中的层级误差传递;次日则钻研连接组学,检验解剖连接是否符合理论假设。
当然,人工智能始终是新创意的源泉。人工智能领域瞬息万变,可以从中挑选出一些瑰宝,看看它们是否与理解大脑有关。身处信息爆炸时代,要想真正取得进步,就必须训练大脑成为高效的信息采集者,从海量数据中构建新理论。虽然任务艰巨,但相比数据匮乏的年代已是巨大进步。我认为,现在是积极合作的阶段,计算机科学家、人工智能专家、神经科学家和心理学家都应勇于提出宏大理论,这正是突破学科边界的最佳时机。
保罗:这里可能存在一个悖论:当工具极大丰富时,宏观理论思考反而变得更困难。在数据洪流中,如何培养理论思维?
拉杰什:这是一个很好的问题。对我而言,理论构建始于计算视角的规范性思考,即先从规范性的角度来思考,之后再寻找与之相关的大脑中的数据,从计算开始,自上而下地深入到神经科学的研究。另一种方法是自下而上的研究,这种方法是从对特定脑区的研究出发,试图从理论上超越这一个脑区,因而对这一区域与所有其他相连区域的互动角度来进行思考。在此之后是对更大范围的行为的考量。
我在特里(Terry)的实验室做博士后的时候, 作为理论家访问了许多不同的实验室。我询问研究V1区域的人,既然V2与V1是相通的,为什么不同时研究V2区域以及它们之间的相互作用呢?那个人回答说,他会在弄明白V1之后研究V2区域。
然而,如果大脑的工作方式不能进行还原,如果V1的特性与V2和其他结构密切相关,他的研究路径注定是走不通的。我认为,作为神经科学家,我们所面临的挑战是,大脑是一个经由数千年进化而成的复杂机器。如果使用还原论 ,就很难理解整个大脑发生了什么。也许我们没有能力了解整个大脑,但我们必须设法选择正确的抽象层次,并希望能将这些抽象层次从行为层一直联系到分子层。这需要群体的通力合作。特别是在这个信息大爆炸的时代,进行整体性的研究尤为困难,但我们不能失去希望。我们已经在路上了,应该对此持乐观态度。
08 后记预测编码理论为理解大脑的信息处理机制提供了强有力的框架,其在神经科学、人工智能与脑机接口等领域的应用前景广阔。随着技术的进步与跨学科合作的深入,我们有望在未来揭示大脑的更多奥秘,并推动人类智能与技术的进一步发展。
拉杰什的研究经历对于许多研究者而言也是一种鼓舞,他的理论从提出到获得大范围的认可和验证之间间隔了10-20年。然而,正如他激励后辈时所言:“坚持你的想法,也许最终就会开花结果”。
为了阅读体验,本文对听稿进行了适当地编辑。
原对话指路:
来源:钛媒体