NoProp:无需反向传播,基于去噪原理非全局梯度传播神经网络训练
反向传播算法自四十年前问世以来一直作为深度学习的基石,然而仍然面临两项关键技术挑战:首先由于必须存储中间激活值用于梯度计算,导致内存消耗显著;其次其本质上的顺序计算特性严重限制了模型在分布式多GPU环境下的并行扩展能力。近期牛津大学、Mila研究所与Googl
反向传播算法自四十年前问世以来一直作为深度学习的基石,然而仍然面临两项关键技术挑战:首先由于必须存储中间激活值用于梯度计算,导致内存消耗显著;其次其本质上的顺序计算特性严重限制了模型在分布式多GPU环境下的并行扩展能力。近期牛津大学、Mila研究所与Googl
而一直对反向传播持怀疑态度的也是 Hinton。因为这种方法既不符合生物学机理,与大规模模型的并行性也不兼容。所以,Hinton 等人一直在寻找替代反向传播的新方法,比如 2022 年的前向 - 前向算法。但由于性能、可泛化性等方面仍然存在问题,这一方向的探索