AI时代的王炸,可逆计算,重新定义“计算”这件事本身

360影视 欧美动漫 2025-06-01 20:37 2

摘要:当今的人工智能正以前所未有的速度扩张,但它的底层计算,依旧依赖一项几十年前确立的、却存在严重能效问题的传统范式。每一台计算机在运转时都在耗散能量,而这种能耗不仅仅来自电源或散热系统,更深层地源于一个物理层面的事实:删除信息必然释放热量。

当今的人工智能正以前所未有的速度扩张,但它的底层计算,依旧依赖一项几十年前确立的、却存在严重能效问题的传统范式。每一台计算机在运转时都在耗散能量,而这种能耗不仅仅来自电源或散热系统,更深层地源于一个物理层面的事实:删除信息必然释放热量

这一点最早由IBM物理学家罗尔夫·兰道尔(Rolf Landauer)在1961年提出。他发现信息与热力学之间存在直接关联。具体而言,当一个比特的信息被抹除时,系统的熵——即混乱度——会不可逆地增加。这种熵增不会凭空发生,它表现为热量的释放,哪怕在最理想的硬件中也无法避免。也就是说,即便制造出完美无缺、零电阻的逻辑门电路,只要它处理信息的方式包含“丢弃”或“覆盖”,就注定会有热量损失。

这种热量,在早期的大型机时代尚且可以忽略;在笔记本与手机时代通过改进散热结构还能容忍;但在AI训练中,一个模型的迭代常常要消耗成千上万千瓦时的电能时,它就变成了不可承受之重。谷歌、Meta、OpenAI乃至国家超级计算中心,为追求更快的推理与训练速度,投入的能源已开始引发外部干预:电力配额、碳排放审查,甚至数据中心选址政治化。

这不是简单的算力瓶颈,而是物理法则对信息处理设下的边界。从传统“计算等于信息损失”的角度看,这个边界似乎无法穿越。你想获得结果,就必须舍弃中间过程。而每次舍弃,都是向热力学妥协的一步。

但兰道尔的发现中,还隐藏着一条逃逸通道。既然删除信息是问题的源头,那如果计算过程完全不删除信息呢?是否可能构建一种在物理意义上“可逆”的计算机,让每一步操作都可以被回退,像电影倒带一样逐帧还原?这样就不再有熵的增加,不再有热量的流失——至少在理论上。

正是这个设想,为一种新的计算路径打开了缺口。可逆计算,不再追求更快的结果,而是尝试从更深层的物理秩序出发,重新定义“计算”这件事本身。几十年来,它一直被视为技术乌托邦;但现在,随着传统芯片在尺寸、电压和频率上的极限逐渐逼近,它正重新走到聚光灯下。

可逆计算的核心思想非常直接:让每一个计算步骤都可以“倒回去”。这并非哲学层面的“回到过去”,而是严格的物理过程可逆性。在传统计算中,执行一条指令,比如将两个数相加,最终我们只保留了一个结果,而输入信息被抹除。如果你只知道结果是4,你并不知道是2+2、1+3,还是0+4;你失去了“信息”。

而在可逆计算中,计算过程本身不会丢失任何信息。它保留了每个操作的所有输入与输出,使得整个系统始终处于一个确定的、可回溯的状态。最理想的情况是:给定当前状态,就能完全还原过去的所有状态。

这不是一项纯粹逻辑上的构想,而是一个受热力学严格约束的技术追求。根据兰道尔的理论,只有在不删除比特的前提下,系统才能避免最低限度的能量散失。计算如果不涉及“选择性遗忘”,就不会伴随熵的不可逆增加。

当然,这种想法一开始听起来几乎等同于胡说八道。你不能无限保存每个中间结果,总有一天存储空间会被填满。于是最初的可逆计算模型要求硬件具备无限存储容量,这在工程上是不可能的。即便存储不是问题,计算效率也会极低。每一个计算步骤都要记录、追踪、复原,系统会变得臃肿得可笑。

直到1973年,IBM科学家查尔斯·本内特(Charles Bennett)提出了一种更优雅的机制:“反计算”(uncomputation)。他的设想是:我们只在必要的时候记录中间状态,并在任务完成后,用一套倒序逻辑清除所有“辅助信息”而不产生热量。就像格林童话中的汉赛尔与格蕾特,他们在森林中留下面包屑做记号,但在回家的路上,将面包屑一一拾起。轨迹被还原,但垃圾没有留下。信息被清理,但熵没有增加。

反计算将可逆性从硬件问题转化为算法设计问题。计算必须不仅能做出结果,还得能“悄无声息”地撤销自己——像忍者一样留下零痕迹。这意味着程序不再是一串单向执行的命令,而是一种始终可以“倒退执行”的逻辑体。每一条语句,不只是要算得准,还要能算得回去。

代价呢?是时间。反计算理论上需要将整个计算过程运行两遍,一遍正向,一遍反向。对于大多数实际任务来说,这个成本难以接受。于是反计算从逻辑上解决了信息丢失问题,却在工程上留下了“效率障碍”。你省下了能量,却牺牲了速度。

这也解释了为什么这项思想长期被束之高阁:可逆性听起来美好,但它看似在最不该妥协的地方妥协了。工业界关心的是速度与吞吐量,而不是能不能倒回一条加法。

但到了今天,这个判断开始松动。速度已经撞上墙,而能耗已成头号敌人。在这种背景下,哪怕是“双倍时间换零能耗”这样的交易,也突然变得值得考虑。特别是在AI这种极度并行、能源密集的场景中。系统可以用慢速运行的芯片,通过规模并行弥补性能,从而换取能效与密度优势。这正是可逆计算重新焕发生命力的根本契机。

理论上的可逆计算优雅而节能,现实中的可逆计算却是另一回事。它的最大问题,从来不是理念不清晰,而是做不出来

首先是硬件设计的问题。传统计算机的核心部件——晶体管——天生就不是为可逆操作设计的。它们是开关型器件:电压一加,通断即定;状态一变,原始信息就被覆盖。它们以“丢弃”为美学,以“抹除”为效率。要构建一个真正可逆的逻辑门电路,就需要完全重构这些器件,改为保持输入输出之间信息守恒的结构。这并不意味着简单地加点寄存器,而是要求门级逻辑本身满足可逆变换:每个逻辑状态都只能由唯一一个前态产生,也只能通向唯一一个后态。

这种电路存在,但极为复杂。早期的一些尝试,比如MIT在1990年代研制的可逆CMOS芯片,确实做出了可以运行的基本门电路。但它们速度慢、面积大、信号控制极其精细,一旦有一个寄存器漏掉状态,整个可逆性就崩塌了。更糟糕的是,电路布局需要防止非目标路径上的能量损耗,比如泄露电流、交叉电容、串扰等。在可逆计算中,这些微小的副作用不再是“噪音”,而是直接破坏计算完整性的灾难。

更大的挑战来自程序设计。你不能简单地用传统的编程语言写出一个可逆程序。一个普通的 if-else 语句就可能打破可逆性:一旦条件跳转,原来的路径就丢了。而函数调用、内存分配、循环体内的状态更新,这些在普通程序员眼中再自然不过的逻辑,在可逆世界里都要被严格约束、设计成可回溯的状态机。这不仅仅是一个硬件问题,而是整个软件生态都需要重写。

哪怕勉强做出一个可逆系统,它也未必节能。这是最讽刺的一点。可逆计算只有在“理想环境”下才能节省能量:低频率、低电压、低散热负担。在实际系统中,任何一个多余的布线、过快的电压上升沿、漏电流的积累,都能让这种节能变成虚妄。你省下来的信息熵损失,可能比不过晶体管噪声带来的热量释放。

于是现实非常残酷:一个理论上能节能的计算架构,在现实中反而比传统计算机更耗能。这就像建造一艘没有风阻的飞船,却发现燃料全用来克服船体震动。早期的研究团队因此纷纷退场。工业界对此嗤之以鼻:既然传统芯片还在改进,为什么要投资一个又慢又难又不省电的技术?

连最早投身这项事业的研究者之一、迈克尔·弗兰克(Michael Frank)也曾在2000年左右中止了自己的研究。他不是被理论打败,而是被现实的冷漠击溃。拨款申请被拒、同行不屑一顾、工业界毫无兴趣。他甚至离开学术界,去经营了一家网吧。

但这场撤退,并非放弃。相反,它像一次低温休眠,等待时机的成熟。这个时机,正是计算进入纳米尺度后的物理瓶颈时期。当晶体管不能再变小、频率不能再提升、散热不能再压缩,系统能效比变成新的瓶颈。这时人们才开始意识到:可逆计算的问题,也许不是它太奇怪,而是我们太早了。

转折

摩尔定律的尽头,不是计算能力的终结,而是热。再快的频率,如果芯片无法散热,就只能降频运行。再小的制程,如果能耗比失控,功耗密度就会烧穿硅片。到了2010年代后期,芯片制造商开始陆续承认一个事实:传统的提升路径正在耗尽技术红利,而能源成为新边界。

这一转折点并不体现在某一次技术失败,而是在一连串“进展”的减速中逐渐显现:7纳米之后的5纳米工艺性能提升不再显著,3纳米以下的工艺路线面临极限光刻的瓶颈,芯片的单位能耗降低速度远远赶不上AI任务所需的算力膨胀。GPU架构设计师最先感到这种不适,因为深度神经网络的训练和推理,需要吞吐的不是一个字节、一个向量,而是上亿个参数构成的张量流。这些流量,已经逼近现有硬件的散热极限。

于是,一个几十年前被束之高阁的研究方向开始重新被端上桌面:可逆计算并不是比传统计算更强,而是在“单位能量产出”的指标上,可能是唯一仍有数量级提升空间的路径。

这一次,理论不再孤立。2022年,剑桥大学的研究员汉娜·厄尔利(Hannah Earley)发表了一项关键成果,她建立了一个数学模型,首次量化了可逆计算中“能耗与运行速度”的精确关系:只要运行速度足够慢,甚至可以无限接近理论最小热耗。她指出,即使任何实际物理系统都无法实现绝对零能耗,但如果我们允许以更慢速、在更大的芯片阵列中并行执行任务,就可以在实际工程中逼近兰道尔极限

这个关系听起来简单:慢,就能省。但背后的转折非常深刻。它等于说,我们可以通过牺牲时间,换取能效;更进一步,在AI任务中,这种牺牲甚至不必真的发生。原因很直接:AI的多数任务本就采用并行方式运行。训练模型、推理大语言模型、搜索最优路径、优化图神经网络——这些操作可以拆分成多个独立的子任务,分布在不同的计算节点上。如果我们用更多的可逆芯片以低速运行,虽然每块芯片慢,但整体吞吐量不降,反而节能

这就像让数千只缓步乌龟完成一场竞速,它们不如猎豹快,但从不发热,也不喘气。最终结果一样,代价却小得多。

对工业界来说,这意味着一种全新的设计思路:芯片不再是越快越好,而是越“冷静”越划算。功耗密度变成主导因素,冷却成本成为总成本的重要组成部分。在这种背景下,可逆计算不再是一种物理理论的极限探讨,而是一种经济博弈中的实际选项。

于是,弗兰克回归了。他加入桑迪亚国家实验室,重建了一个致力于低能耗计算架构的研究组。他不再孤军奋战——像谷歌TPU团队、微软Project Silica、IBM量子研究院等一批原本对能耗并不敏感的单位,也开始关注可逆设计的架构潜力。

转折已经发生,尚未完成。真正的挑战是如何在合理成本下,制造出真正适用于可逆逻辑的芯片体系。工程上的限制依旧严峻,但现在的问题不再是“要不要做”,而是“怎么做才值”。而这,正是下一阶段产业化变革的起点。

技术转向真正开始提速,是在2022年那场理论突破之后。厄尔利不仅提供了热耗与速度之间的定量关系,更明确指出:在一个分布式并行系统中,低速可逆芯片的优势可以被系统性放大。你不需要把单颗芯片做到极致,只需把“冷运行”的逻辑门布满晶圆,再让它们像神经网络那样并行活动,结果是能耗压缩,而性能维持。

这与传统的线性思维相反。传统芯片是“竖着堆”:频率更高,功率更大,结果更快。而她的模型表明,可逆芯片更适合“横着铺”:数目更多、速度更慢、热量更低。节能不是来自单个芯片的奇迹,而是整个系统架构的重新组织

这一发现很快引发关注。厄尔利与弗兰克联合创办了 Vaire Computing,一家以商业化可逆芯片为核心目标的初创公司。这不仅仅是技术延续,更是一种市场行为的逆转:几十年来被主流行业视为“冷门”的技术,第一次获得资本支持和商业验证的机会。

Vaire 不再尝试制造“通用计算机”,而是聚焦在高并行、低能耗、稳定热负载的场景——正是AI推理最关键的短板。它的目标不是“取代GPU”,而是提供一种在能源受限或冷却成本高昂条件下依然能扩展的AI硬件架构。比如在空间站、边缘设备、微型无人系统、或者需要部署大量AI模型的服务器集群中,可逆芯片可能成为新的算力基础层。

与此同时,研究层面也在迅速迭代。哥本哈根大学的托尔本·莫根森(Torben Ægidius Mogensen)团队开始开发第一套适用于硬件可逆性的编程语言,底层逻辑不再依赖传统堆栈与指针模型,而是设计为状态保持、过程对称、可完全回溯的运算框架。他们不再把反计算看作附加流程,而是当作程序本体的一部分逻辑条件。

新的EDA工具、新的架构评估标准、新的布图策略,正在围绕这个重新定义的信息处理范式逐渐建立。

最关键的变化,也许不是技术本身,而是态度的逆转。二十年前,工程师们认为可逆计算是“能量危机幻想下的极端尝试”;如今,他们开始把它看作“后摩尔时代的主干选项之一”。而AI正好提供了这个范式变迁的催化剂。

过去我们为算力付出的代价是电力和热;未来,我们可能更多为能效和密度而设计架构。

当计算不再是信息的消耗过程,而变成信息的保留与回溯过程,计算本身的定义也就改变了。可逆计算不是对现有路线的改良,而是另一种路径的开启——一条从热力学第一定律出发,跨过逻辑门,延展到未来AI基础设施的新路径。

它不追求快,而追求不可挽回的信息损耗的最小化。它不迷信摩尔定律的尾声,而是追问最深的物理边界:信息处理的热力极限到底是什么?

我们也许很快就会得到答案。不是在实验室的计算中,而是在下一代AI系统冷静运行时,悄无声息地——倒退着计算。

来源:老胡科学一点号

相关推荐