AI研究人员意外发现:我们对学习的认知可能全部是错误的

360影视 欧美动漫 2025-09-03 11:16 1

摘要:五年前,如果你建议AI研究人员去训练一个拥有数万亿参数的神经网络,他们只会投来怜悯的目光。这违背了机器学习中最基本的规则:模型太大,就会变成一个高级复印机,只会机械记忆训练数据,而学不到任何有用的东西。

作者:Jamie Lord
原文:《How AI researchers accidentally discovered that everything they thought about learning was wrong》

“彩票假说”解释了为什么超大规模神经网络能够成功,尽管数百年的理论预测它们应该失败

五年前,如果你建议AI研究人员去训练一个拥有数万亿参数的神经网络,他们只会投来怜悯的目光。这违背了机器学习中最基本的规则:模型太大,就会变成一个高级复印机,只会机械记忆训练数据,而学不到任何有用的东西。

这不仅仅是约定俗成——它还是数学定律,由三百年的统计理论支撑。每一本教材都画着相同的不可避免的曲线:小模型欠拟合,合适的模型能泛化,大模型则灾难性过拟合。故事到此结束。

然而今天,这些“不可思议”的超大模型却驱动着ChatGPT、解码蛋白质,并引发了一场价值数千亿美元的全球军备竞赛。改变的并不只是计算能力——而是我们对学习本身的理解。这场变革背后的故事揭示了,AI最大的突破源于研究者们敢于无视自己领域最根本的假设。

三百多年来¹,一个原则支配着所有学习系统:偏差-方差权衡。数学优雅,逻辑无懈可击。模型太简单,就会错过关键模式;模型太复杂,就会记住噪音而不是信号。

想象一个学生学习算术。给他成千上万道加法题和答案,他可能有两种学习方式:聪明的做法是掌握进位和位值的算法;愚蠢的做法是把所有题目死记硬背。第二种策略能在作业中拿满分,却会在考试中彻底失败。

神经网络似乎尤其容易掉进这种“记忆陷阱”。拥有数百万参数的它们,完全可能存下整个数据集。传统理论预测,这些过参数化网络会像死记硬背的学生——在训练集上完美无瑕,在新任务上惨不忍睹。

这种认知塑造了一切。研究人员痴迷于架构技巧、正则化手段和数学约束,努力在小而精的模型中挤出性能。扩展规模被嗤之以鼻,认为那是昂贵的愚蠢行为。

领域里最受尊敬的声音不断强化这种正统观念:“更大的模型只会过拟合。”成为口头禅。会议论文聚焦于效率,而不是规模。仅仅通过增加参数来解决问题的想法被视为学术异端。

2019年,一组研究人员犯下了“终极罪行”:他们无视警告,继续扩展规模。理论要求在模型训练精度达到100%时停下来——那是危险信号。但他们没有停,而是大胆踏入“禁区”。

接下来的结果,颠覆了300年的学习理论。

模型并没有崩溃。在最初看似过拟合的一段过程后,发生了非凡的事情:性能开始再次提升。而且是戏剧性地提升。

这一现象被称为“双重下降”(double descent)——先是错误率按预期上升(过拟合),随后却意外地再次下降,仿佛模型完全超越了过拟合。Mikhail Belkin及其同事记录下这一发现,并指出它“与偏差-方差分析的常识相矛盾”。

这一发现震动了整个AI研究界。OpenAI的后续工作表明,这种好处可以跨越多个数量级延展。大模型不仅仅是积累更多事实——它们正在发展出新的能力,包括通过极少样例学习任务的能力。

整个领域骤然转向。Google、Microsoft、Meta和OpenAI投入数十亿美元,打造更大的模型。GPT系列从1.17亿参数膨胀到1750亿。曾经被理论禁止的“更大更好”成为业界的北极星。

答案来自一个意想不到的角落:神经网络“彩票”的研究。2018年,MIT的Jonathan Frankle和Michael Carbin在研究剪枝——即训练后移除不必要的权重。他们的发现优雅地解答了扩展悖论。

在每个大网络中,他们发现了“中奖票”——微小的子网络,却能匹敌整个网络的性能。他们甚至可以去掉96%的参数而不损失精度。换句话说,大部分参数都是累赘。

关键洞察在于:这些子网络只有在保留原始随机初始化时才能成功。如果改变初始值,同样的稀疏架构就彻底失败。

由此诞生了彩票假说:大模型成功的原因,不是因为它们学会了复杂的解,而是因为它们提供了更多机会去找到简单的解。每个权重子集就像一张彩票——一个潜在的优雅解决方案。大多数彩票都没中,但当你有数十亿张彩票时,中奖几乎不可避免。

训练的过程,不是去搜索完美架构,而是进行一次超级抽奖。无数个初始条件不同的小网络一起训练,最终那个“中奖”的小网络胜出,而其余的数十亿则逐渐消亡。

这一发现将经验上的成功与经典理论统一起来。大模型并非死记硬背——它们是在庞大的参数空间中找到优雅的简单解。奥卡姆剃刀依旧成立:最简单的解释依然最好。规模只是提供了更高级的寻解工具。

这一发现超越了人工智能本身。如果学习意味着找到能解释数据的最简模型,而更大的搜索空间能让我们找到更简的解,那么这重新定义了智能

想想你的大脑:860亿个神经元,数万亿个连接,按任何标准都“严重过参数化”。然而你能从有限样例中快速学习并推演到新场景。彩票假说暗示,这种神经元的丰裕同样是为了增加找到优雅解的几率。

智能并不是存储海量信息,而是寻找优雅模式,去解释复杂现象。规模提供的不是存储空间,而是搜索空间。

这也照亮了科学进步的路径。数十年来,研究者因为理论说“不行”而回避扩展。真正的突破来自敢于验证假设的人。

这在科学史上屡见不鲜。大陆漂移曾被嘲笑,直到板块构造学提供了机制;量子力学曾荒谬,直到实验证据压倒一切。最重要的发现常常需要突破既有理论的边界。

然而,彩票假说并没有推翻经典学习理论——它揭示了这些原则的更精妙运作方式。简单解依旧最优;我们只是发现了寻找它们的更好方法。

对AI而言,这既带来希望也带来限制。扩展之所以有效,是因为更大的模型提供了更多彩票,更多机会找到最优解。但这同时意味着自然存在上限:随着找到好解的概率趋近饱和,进一步扩展的收益将递减。

这与一些专家的担忧一致。Yann LeCun认为,架构本身的根本限制可能阻碍语言模型达到真正理解,不管规模多大。彩票机制解释了现有的成功,同时也暗示未来的挑战。

这场意外的发现为我们带来深刻启示:宇宙常常为那些敢于挑战传统智慧的人,准备优雅的惊喜。最深刻的洞见有时不是推翻原则,而是发现它们的运作方式比我们想象得更复杂。

进化本身遵循类似的原则,在巨大的基因可能性空间中探索,寻找优雅的生存方案。最成功的生物不是最复杂的,而是最适应环境的。

曾经的学习理论危机,最终成为它的胜利。偏差-方差权衡依旧成立,但我们明白了它的运作远比预期精妙。大模型之所以成功,并不是打破规则,而是把规则玩到一个我们未曾想象的层次。

那些敢于突破理论舒适区的研究者,不仅推进了AI,还提醒我们:经验事实有时蕴含着理论尚未把握的智慧。在一个建立于数学确定性的领域,最重要的发现,竟然来自对不确定性的拥抱。

¹ 这里提到的“三百年”是指支撑现代偏差-方差分析的数学原理,而非当代术语本身。1763年的贝叶斯定理建立了基于证据更新信念的数学框架;18世纪末至19世纪初,拉普拉斯的统计推断工作则形式化了“模型必须在拟合与简洁之间取得平衡,否则会得出虚假结论”的原则。这些早期统计学洞见——复杂解释往往捕捉噪音而非信号——构成了偏差-方差权衡的数学基石。现代形式则在20世纪后半期逐渐成熟,但其核心思想已统治统计推理数百年。

来源:AI观察室

相关推荐