摘要:在刚刚过去的机器学习顶会——神经信息处理系统大会(NeurIPS,Neural Information Processing Systems)上,火出圈的既有 OpenAI 前首席科学家伊尔亚·苏茨克维(Ilya Sutskever)的“预训练结束”言论,也有
在刚刚过去的机器学习顶会——神经信息处理系统大会(NeurIPS,Neural Information Processing Systems)上,火出圈的既有 OpenAI 前首席科学家伊尔亚·苏茨克维(Ilya Sutskever)的“预训练结束”言论,也有美国纽约大学教授 Kyunghyun Cho 的会后感想文章《我在 NeurIPS’24 上感受到了焦虑和挫败》。
而一名来自德国汉堡的 00 后菲利克斯·彼得森(Felix Petersen)也小小地出圈了一把。早年,彼得森在德国洪堡文理中学读书,后来在德国康斯坦茨大学读完本科和博士。
17 岁时,他开发出一种 X 射线激光器,一度曾引起业界关注,并得到了德国媒体的报道。刚到大学时,他不仅已能辅导别人,还管理着德国洪堡体育馆的机器人小组。
图 | 19 岁时的彼得森(来源:彼得森个人主页)
目前,他在美国斯坦福大学做博士后,师从于该校的斯特凡诺·埃尔蒙(Stefano Ermon)教授。在本次 NeurIPS 上,彼得森展示了自己和导师设计的由逻辑门组成的神经网络(下称“逻辑门网络”)。
图 | 彼得近照森(来源:https://petersen.ai/)
图 | 相关论文 (来源:arXiv)
让逻辑门网络变得“松弛”
那么,彼得森为何要研发逻辑门网络?
这要从 GPT-4 和 Stable Diffusion 等大模型说起,在这些大模型中神经网络是通过将感知器连接在一起而构建的,感知器是对人类大脑神经元的一种高度简化模拟。
尽管感知器非常强大,但是它们也消耗了大量能量,以至于微软已经达成了一项协议要重新启动三里岛核电站,以便为其人工智能进步提供动力。
部分问题在于感知器只是软件层面的抽象。在图形处理器(GPU,Graphics Processing Unit)上运行感知器网络的时候,需要将这一网络转换为硬件语言,而这需要时间和能量。
但是,直接使用硬件来构建网络则能省去很多成本。彼得森认为,与支持大多数现代人工智能系统的传统神经网络相比,直接存于计算机芯片硬件中的神经网络可以更快地识别图像,并且消耗的能量更少。
未来某一天,直接存于计算机芯片硬件中的神经网络甚至可以直接内置到智能手机和其他设备的芯片中,从而大大减少向服务器发送数据和从服务器发送数据的需求。
那么,该怎样实现上述目标?如前所述,彼得森设计了由逻辑门组成的神经网络。
逻辑门,是计算机芯片的基本构建模块。逻辑门由晶体管组成,它可以接受两个比特(1 或 0)来作为输入,并能根据特定晶体管模式规定的规则输出一个比特。
就像感知器一样,逻辑门可以链接成网络。而运行逻辑门网络可谓既便宜、又快速、又简单。彼得森在 NeurIPS 的演讲中表示,逻辑门网络的能耗比感知器网络低数十万倍。
目前,彼得森并没有刻意去寻找构建节能人工智能网络的方法。他是基于对于“可微分松弛(differentiable relaxations)”的兴趣,才开始研究逻辑门。
可微分松弛,指的是将某类数学问题变成微积分可以解决的形式。让深度学习革命成为可能的反向传播(训练)算法,是应用可微分松弛方法的一个经典案例。
但是,由于反向传播是基于微积分而构建的,因此并不能直接用于训练逻辑门网络。逻辑门只能用 0 和 1,而微积分需要得到 0 和 1 之间的所有中间值。
为此,彼得森设计了一种方法:创建类似于使用 0 和使用 1 的逻辑门、同时也能给出中间值答案的函数,让逻辑门网络变得“松弛”,以便能够进行反向传播。
通过训练这些门运行模拟网络,可以将逻辑门网络转换回能在计算机硬件中实现的东西。
这种方法的一个挑战是,“松弛”的网络很难被训练。网络中的每个节点最终都有可能成为 16 个不同逻辑门中的任何一个,与每个逻辑门相关的 16 种概率必须被追踪被记录并不断被调整。
而这需要大量的时间和能量。彼得森说,相比在 GPU 上训练传统神经网络,训练他所打造的逻辑门网络在时间上要多出数百倍。在无法负担数十万 GPU 的大学里,GPU 在时间分配收纳柜很难周转得开。
因此,彼得森与合作者开发了逻辑门网络。尽管开发过程无比困难,但是一旦网络经过训练,它就会变得越来越便宜。
二进制神经网络,则是另外一种已有的超高效网络,在这一网络中需要使用只能处理二进制值的简化感知器。为了验证逻辑门网络的效果,彼得森将它与二进制神经网络进行比较。
在做对比时他使用了 CIFAR-10 数据集,该数据集包括从“青蛙”到“卡车”等 10 种不同类别的低分辨率图片。
他让逻辑门网络和二进制神经网络,同时针对 CIFAR-10 数据集中的图像进行分类,借此发现逻辑门网络与其他方法做得一样好。
具体来说:相比其他分类神经网络所需的逻辑门数量,逻辑门网络所使用的逻辑门数量不仅低于前者所需数量的十分之一,并在不到千分之一的时间内完成了同一任务。
现场可编程门阵列(FPGA,Field Programmable Gate Array),可被用于模拟逻辑门的多种不同潜在模式。
为此,彼得森使用了 FPGA 测试了逻辑门网络。这是一种可编程计算机芯片,可用于模拟逻辑门的多种不同潜在模式(组合)。
事实上,也可以在专用集成电路(ASIC,Application Specific Integrated Circuit)芯片上实现该网络,这样还能进一步降低成本,因为 FPGA 使用了更多组件故其成本更高。
在一些资源有限的场景中,比如在移动设备和嵌入式系统上,它们对于能量和速度的要求很高。而即使在处理能力有限的环境中,逻辑门网络也能让深度学习继续工作。
或在机器学习领域开辟更多可能性
不过,对于彼得森的研究成果,也有学者对于其应用前景表示担忧。美国加州大学圣地亚哥分校电气与计算机工程教授法里纳兹·库尚法尔(Farinaz Koushanfar)表示,她不相信逻辑门网络在面临更现实的问题时能够发挥作用。
她说:“这是一个有趣的想法,但我不确定它的规模有多大。”她指出,逻辑门网络只能通过 relaxation 策略进行近似训练,而近似训练可能会失败。
尽管目前看起来问题不大,但是库尚法尔表示随着网络的发展,问题可能会越来越大。
彼得森也承认,让逻辑门的性能媲美传统神经网络并不是他的目标。造出有效且尽可能高效的东西就足够了。“这不会是最好的模型。”他说,“但它应该是最便宜的。”
逻辑门网络在图像标记等任务上的表现不如传统神经网络,但美国康奈尔大学电气与计算机工程教授 Zhiru Zhang 表示,这种方法的速度和效率使其潜力巨大。
他说:“如果我们能缩小差距,那么这可能会在机器学习的这一领域开辟很多可能性。”
因此,彼得森对于未来很有信心。他打算继续改进逻辑门网络的能力,并期待最终能够创建一个“硬件基础模型”。
试想一下,假如一个逻辑门网络不仅功能强大而可以实现通用,那么就能直接在芯片上实现大规模应用,而这些芯片进而能被集成到手机和计算机等设备中。
这样一来就有望带来巨大的能源效益。如果逻辑门网络能从低分辨率信息中,有效地重建照片和重建视频,那么服务器和个人设备之间所需要发送的数据就会少得多。
参考资料:
1.https://arxiv.org/abs/2411.04732
https://www.suedkurier.de/region/kreis-konstanz/konstanz/Streng-geheimes-Forschungsprojekt-17-jaehriger-Informatik-Student-entwickelt-neuartigen-Roentgenlaser;art372448,9184349
运营/排版:何晨龙
来源:DeepTech深科技一点号