摘要:三百年后的今天,牛顿的一项算法迎来了新一轮的迭代。这并非某个遥远的数学古老命题的复兴,而是其简洁而强大的优化方法,经过三位数学家的努力,终于突破了传统的限制,展现出前所未有的潜力。一个三百年前的数学家如何与当今世界的复杂问题产生了意想不到的碰撞?
三百年后的今天,牛顿的一项算法迎来了新一轮的迭代。这并非某个遥远的数学古老命题的复兴,而是其简洁而强大的优化方法,经过三位数学家的努力,终于突破了传统的限制,展现出前所未有的潜力。一个三百年前的数学家如何与当今世界的复杂问题产生了意想不到的碰撞?
要理解这次突破,首先要回顾牛顿的原始方法。我们要解的,是一些复杂的数学问题:最优化、最小化这些多维度的函数,尤其是在面对多变量和复杂函数时,几乎没有显而易见的捷径。牛顿的方法,通过一系列简单的数学推导,采用“泰勒级数展开”对复杂函数进行局部近似,然后逐步逼近最小值。
这一方法在很多领域都至关重要:从物流调度、金融投资,到机器学习中的算法优化,几乎无处不在。但它也有明显的局限。牛顿的算法需要高阶导数的计算,而这些计算在高维空间中往往非常“昂贵”。对普通函数来说,这一方法往往只适用于形态比较简单的“凸”函数,而对于那些具有多个局部最小值的复杂函数,这一方法的效率就大打折扣。
过去的几百年里,数学家们不断在尝试拓宽牛顿方法的适用范围。俄罗斯数学家切比雪夫在十九世纪提出了通过三次多项式近似的版本,但它并未能处理多变量函数。而更近的现代数学进展,如尤里·内斯特洛夫在2021年的研究,则表明,利用三次多项式对多变量函数进行有效近似是可行的,但当问题更复杂时,这些方法往往失去了效率。牛顿的算法本质上是求解局部最小值的过程,可在很多情况下并不一定收敛。
这就是为什么,直到今天,三位数学家——阿米尔·阿里·阿赫马迪、阿布拉尔·乔杜里和杰弗里·张——的工作,才能够引起足够的关注。他们拓展了牛顿方法的边界,使之能够适用于更广泛的函数类别,且保持计算的高效性。
这项进展的核心在于,传统上,牛顿方法只能有效应用于那些“凸”的函数。简单来说,凸函数就像一个碗,最低点只有一个,使用牛顿的算法能有效找到。但是现实中的许多问题,包括机器学习中的优化,往往是非凸的,函数的图像呈现复杂的多个“山谷”,使得寻找全局最优解变得异常困难。
阿赫马迪等人通过对牛顿方法进行精细的改进,引入了一种新的思想:将“泰勒级数”通过半正定规划(semidefinite programming)调整,使得函数近似不仅保持了“凸”性质,还能转化为“平方和形式”。这种新的技巧意味着,算法在搜索过程中,即便面临复杂的多变量函数,也能保持高效的收敛速度。
更重要的是,这种新的方法使得计算能够在更多维度上进行扩展。换句话说,原本只适用于二维或三维的牛顿方法,现在能够在更高维的空间中进行优化,解决更多维度的复杂问题。比如,如果你用两个导数来进行近似,你的收敛速度是二次的;如果用三个导数,你的收敛速度是三次的,依此类推。这让原本在面对一些复杂函数时显得效率低下的算法,能够加速收敛。
然而,纵使这一方法强大,依然有其局限性。每一次迭代的计算,依然比梯度下降法(gradient descent)计算成本高得多。梯度下降法是当前机器学习中广泛使用的优化方法,尽管它收敛速度较慢,但由于每一步的计算成本相对较低,因此在大规模数据和复杂模型中依然占据主导地位。牛顿方法在某些领域,尤其是在迭代次数较少、计算资源允许的情况下,仍然可能显得更为高效。但如果需要应对大规模的训练任务,梯度下降法依然是更优的选择。
然而,这一切并非终结。阿赫马迪等人的算法虽然计算成本仍旧高,但它为未来的计算技术提供了一个可行的方向。随着计算硬件的进步,算法的计算成本将逐步降低。更强大的计算能力意味着,牛顿方法的新版本有可能最终在各个领域取代梯度下降法,成为处理最优化问题的主要工具。
如今,牛顿的方法,经过三百年的沉淀,依然活跃在现代数学的前沿,证明了数学思想的持久性与适应性。未来的优化算法,可能会在这条基础上,走得更远更快,甚至成为人工智能的“心脏”。
来源:老胡科学