密歇根大学团队构建了全新数学框架,登上Nature Communications

360影视 2024-12-28 15:08 4

摘要:受人脑复杂运作的启发,神经网络已经彻底改变了各个领域的生产研究现状。然而,考虑到基于计算机的神经网络需求的大量计算与极高能耗,特别是传统数字处理器的能源效率,机械神经网络的发展逐步被提上日程。

本文约2300字,建议阅读5分钟

本文为你介绍可自主学习的机械神经网络系统。

受人脑复杂运作的启发,神经网络已经彻底改变了各个领域的生产研究现状。然而,考虑到基于计算机的神经网络需求的大量计算与极高能耗,特别是传统数字处理器的能源效率,机械神经网络的发展逐步被提上日程。

在光学神经网络中,波-物质相互作用被用来实现机器学习,类似的思路也可以被用来建立机械神经网络(MNN)的学习框架。

受神经科学的启发,来自密歇根大学的 UM 团队设计了一种算法,为机械神经网络的工作方式的自主学习提供了一个数学框架。

这是一种 MNN 的训练协议,基于原位反向传播。源自伴随变量方法,其理论上从局部信息中就能获得精确的梯度。

除了用作计算设备之外,这些 MNN 作为可持续和自主的材料系统,还为材料科学和机械工程提供了前所未有的机会,因为它们可以接受训练以学习某些行为以适应不同的环境和任务。

该研究以「Training all-mechanical neural networks for task learning through in situ backpropagation」为题,于2024年12月9日发布在《Nature Communications》

“我们看到材料可以自行学习任务并进行计算,”本研究的主要负责人Shuaifeng Li 说,“这个未来还有很长的路要走,但 UM 新研究的见解也可以为该领域以外的研究人员提供更直接的灵感。”

UM 团队的研究结果将训练机械神经网络的理论与实验和数值验证相结合,为机械机器学习硬件和自主材料系统铺平了道路。

原位反向传播

在 MNNs 中进行原位反向传播的理论基础即获得损失函数对于 MMN 弹簧常数的梯度。在 d 维的空间中嵌入 n 个节点并为他们分配位置,区分为输入输出节点 n 入与 n 出,由 m 个弹簧相连接,每一个弹簧都有各自的弹簧常数 k 弹。此外,通过正确设计网络链接来禁止零模式,以便对矩阵 C 完全排序。

在 MNN 中实现原位反向传播并获得损失函数的梯度 L 从 MNNs 的局部信息来看,有两个步骤:对 MNNs 施加输入力 F,得到节点的位移和键 e 的向前伸长,然后计算给定损失函数的形式,这里要使用到前一步中计算好的位移,但需要在数字计算机中计算成本。

在基于能量的学习方法中,微移状态与由轻推强度控制的自由状态略有距离,而新方法中的两种平衡状态是独立的,其中输入力在第二种状态中不存在。

本质上,这个训练方法提供了两个信号传递,一个向前发送输入信号,一个向后传送误差信号。这种传递方法与物理学习所需的规则一致。除了 EP 和耦合学习之外,这个方法还可以作为在本地训练 MNN 的替代选择。

图 1 :原位反向传播的实际演示。

为了演示 MNN 中的反向原位传播,使用 3D 打印技术制造了一份二维 MNN 。在进行实际模拟后表示,损失函数的梯度是向前伸长和伴随伸长的元素乘积,c、d 分别为实验结果与模拟结果。

可以观察到,实验测得的伸长率和模拟的伸长率以及梯度都具有极好的一致性。与代表精确梯度的模拟梯度相比,本次实验梯度误差小于 0.1,这个结果由三个独立实验与另一个损失函数的额外三个独立实验进行平均得到。

虽然从数值上可以获得机器精度的梯度,但线性状态下的假设需要无限小的变形,这表明他们在实验中使用的方法始终是近似值。为了解决这一问题,他们进行误差分析,将梯度误差显示为伴随力的函数。在大伴随力的低梯度误差下,试验方法可以更为准确与高效地产生梯度。

行为学习

据 UM 团队发布的论文所述,训练 MNN 学习行为可以减少设计策略的工作量。他们表明,在没有专业知识的情况下,通过原位反向传播 MNN 可以学习它所需的行为。

图 2 :使用 MNN 进行行为学习。

图示为 MNN 施加的力下的对称输出,顶部面板显示机械网配置,底部显示模拟与实验的垂直位移。考虑到两个青色节点表述的两个类,可以交叉熵损失与归一化一起使用。

交叉熵损失随着预测概率 p 的降低而减小接近实际标签,导致概率最大化和两个绝对垂直位移之间产生的差值。通过原位反向传播,可以实现不对称输出,其中两个节点在施加在红色节点上的相同力下具有不同的垂直位移。

演示的实例表明,MNN 可以在施加的力下学习不同的行为,这里利用原位反向传播提供了一种简单的方法。它可用于创建具有所需功能的高级机械系统。

可重新训练

与仅存在于数字领域的基于计算机的神经网络不同,MNN 是物理制造的,将机器学习模型嵌入到真实材料中。因此,MNN 的可再训练性成为一个关键属性。

与此,实验人员可以通过模拟实验来强盗两个关键场景中的可再训练性。其一,它们可以按需从一个任务无缝过渡到另一个;其二它们在遭受破坏后有回复机器学习模型的能力。

图 3 :可重新训练的 MNN。

训练受损的 MNN 后,分裂准确率从初次受损崩溃后降低到的50%回升到80%,这表明存储在 MNN 中的分类模型得到了实质性的恢复。

值得注意的是,损失的减少出现较为明显的变化。这表明在这种配置下,训练过程取决于训练与测试数据集的划分。

影响因素

目前,学习过程中并不涉及真实的 MNN,因为其还没有在物理实现上更新。基于 UM 团队演示的原位反向传播,存在许多实验途径来实现弹簧常数的更新,因此整个学习过程可以通过更多不同的实验方式来复现。

训练团队指出,从可调杆平台以及磁活性等原理、相位变化与光可调性等方向,对于材料属性可以借由外部场就地编程,有望促进原位反向传播的进一步实验。

除此之外还要考虑到仿真模型与真实材料系统之间的差距。需要通过局部修剪规则以允许原位修剪无序网络的键来操纵材料响应,并适配比弹簧网络更复杂的网络。

结语

截止到目前为止,反向传播一直是跨数字与光学处理器进行机器学习的最有效、使用最广泛的神经网络训练算法。这种技术被应用在机械系统中,揭示了 MNN 在降低机器学习成本方面的潜力。

“力是输入信息,材料本身就像处理器,材料的变形是输出或响应。” Li 说。

训练后的 MNN 在设计有自学习能力的自主机器人与智能材料上具有光明的未来。研究人员表示,由于该算法显然对信息的传输方式漠不关心,它还可能有助于为探索生命系统如何学习开辟新的途径。

“我们看到反向传播理论在许多物理系统中取得了成功,”Li 说。“我认为这也可能有助于生物学家了解人类和其他物种的生物神经网络是如何工作的。”

UM 团队还在研究材料中更广泛的网络类别,包括聚合物和纳米粒子组装。有了这些,他们可以创建新的系统,在其中应用他们的算法并努力实现完全自主的学习机器。

论文链接:

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

来源:数据派THU一点号

相关推荐