摘要:神经网络是一种受生物启发的优美编程范式,由相互连接的单元或节点(称为人工神经元)组成,其组件特征模拟了人类大脑中的神经元。它使计算机能够从观察到的数据中进行学习,形成概念,做出判断,给出结论。
01
写在开头的
神经网络是一种受生物启发的优美编程范式,由相互连接的单元或节点(称为人工神经元)组成,其组件特征模拟了人类大脑中的神经元。它使计算机能够从观察到的数据中进行学习,形成概念,做出判断,给出结论。
如今人人依赖的人工智能模型依靠的就是深度学习——一套强大的神经网络学习技术,为图像识别、语音识别和自然语言处理领域的许多问题提供了最佳解决方案。
黑格尔在其晦涩难懂的著作《精神现象学》中说:「当花朵盛开时,花蕾消逝了,而我们可能会说花蕾被花朵否定了。」就此,黑格尔将「观念置于历史进程中」,使二者合二为一。
没有一套固定不变的神经网络概念,只有神经网络的历史,一套变化的观念集群。
下面我们简单梳理一下神经网络的发展历史。
02
对大脑的认识
知其然还得知其所以然。对人类如何能够思维以及思维能力的容器——大脑的研究始终不过时。
1)很长时间内,人类有相当一部分人认为人的意识是在心脏。古埃及人在制作木乃伊时常将大脑丢弃,认为心脏才是思维和情感的中心。
2)公元前5世纪,古希腊的希波克拉底首次提出大脑可能是思维和感知的中心。
3)到公园2世纪,古罗马的盖伦通过动物解剖提出大脑与神经系统有关,强调「脑室理论」——认为心理功能发生在脑室中,他是古代解剖学的奠基人之一。至此,人们注意到大脑才是意识的发生地。但对大脑结构的研究仍然要到文艺复兴以后才兴起。
4)到20世纪,神经科学兴起。拉蒙·卡哈尔证明大脑是由独立的神经元构成,而非一个整体网络。由此,随着神经元学说的确立,分子神经科学与认知科学的兴起,人们逐步深入研究突触、神经递质、记忆机制等等。
03
前神经网络史
没有任何一门学科是孤立发展起来的,必然伴随着与社会总体变化相对应的广泛领域的观念发展,以及由此带来的相互影响。神经科学(脑科学)的基础研究对神经网络(机器学习)起到了奠基和启发作用。
在神经网络形成概念之前,已经有一些历史的萌芽在潜伏和悄悄发展。追溯起来,如今的深度神经网络基于200 多年前统计学的早期研究。
统计学怎么会跟神经网络关联呢?
首先,我们一直在讨论神经网络,其中一层的输出用作下一层的输入,这样的网络被称为前馈神经网络。前馈神经网络的标准学习算法是——随机梯度下降。利用梯度下降优化权重,而这一步是权重推导的核心。
换句话说,模型通过观察「当前预测错在哪」,计算每个权重对错误的「贡献」,然后反方向修正。这个修正是不断反复的,直至最后的权重参数导出最佳答案。
变量和权重,是深度学习中最多出现的因素。没有变量,当然也就没有结果;但没有权重就没有正确的结果。
好了,现在回到200年前,数学家勒让德和高斯曾用线性回归的统计学方法来对一组点进行良好的粗略线性拟合,以预测行星运动。其原理与前馈神经网络的学习算法是相似的。
200年前的线性回归统计法,与如今前馈神经网络的梯度下降法是一种东西。
04
早期
1)1943年,心理学家W.S. McCulloch和数学家W.A. Pitts提出了第一个神经元计算模型,为人工神经网络奠定了理论基础,证明了简单的神经元网络可以进行逻辑运算。
2)1940年代末,Donald O. Hebb提出了一种基于神经可塑性机制的学习假说,即后来的赫布学习。它被用于许多早期的神经网络。
3)1950年,艾伦·图灵提出了「图灵测试」,为机器智能的评估提供了概念。
4)1956年,在达特茅斯会议上,约翰·麦卡锡首次提出了“人工智能”这一概念。
5)1958年,Frank.Rosenblatt研制出感知机,这是历史上第一个能进行模式识别的神经网络设备,可以实现基于两层计算机学习网络的模式识别。它引入了二元分类器的概念,通过调整权重从数据中学习。尽管感知机只能解决线性可分问题,但它标志着神经网络进入了新的发展阶段。
05
突破、波折期
20 世纪 60 年代和 70 年代对人工神经网络进行了基础研究。
1)1965年,苏联的Alexey Ivakhnenko和 Lapa发表第一个可行的深度学习算法是数据处理的组方法,这是一种训练任意深度神经网络的方法。
2)1967年,第一个通过随机梯度下降训练的深度学习多层感知器由Shun'ichi Amari发表。
3)1969年:Minsky和Papert的《感知机》出版。这本书指出了单层感知机的局限性,即无法解决异或(XOR)问题,这极大地打击了人们对神经网络的热情,导致了「AI寒冬」。
4)但同在1969年,福岛邦彦 (Kunihiko Fukushima)提出了ReLU (整流线性单元) 激活函数。整流器已成为深度学习中最流行的激活函数。
5)1970年代, Paul Werbos在博士论文中提出了反向传播(Backpropagation)算法,但当时并未引起广泛关注。
06
快速发展期
1980年代是反向传播算法的重新发现和应用期。由Geoffrey Hinton等人的研究重新发现了反向传播算法,并证明了其在多层神经网络训练中的有效性。这使得多层神经网络的学习成为可能,并重新激发了对神经网络的研究兴趣。
1)1982年,J.J. Hopfield提出了Hopfield神经网络模型,在优化问题和联想记忆方面展现了潜力。
2)1985年,Yann LeCun和Yoshua Bengio开发了卷积神经网络(前馈神经网络的一种)。卷积神经网络在1994年被LeCun成功应用于手写邮政编码识别,识别率达到99%,并被美国邮政系统采用,这是卷积神经网络在实际应用中的一个里程碑。
3)1991年,Sepp Hochreiter在其毕业论文中识别并分析了梯度消失问题,并提出了循环残差连接来解决该问题。他和 Schmidhuber 提出了长短期记忆网络,并在多个应用领域创下了准确率纪录。
4)1985 年至 1995 年间,受统计力学的启发,Terry.Sejnowski、Peter.Dayan、Geoffrey. Hinton等人开发了几种架构和方法,包括玻尔兹曼机、限制玻尔兹曼机、亥姆霍兹机、唤醒-睡眠算法。这些都是为深度生成模型的无监督学习而设计的。
07
成熟期(深度学习)
1)2006年,深度学习爆发年。Geoffrey Hinton等人发表了关于深度置信网络的快速学习算法,解决了深层神经网络训练中的梯度消失问题,证明了深度神经网络通过预训练和微调可以有效地进行学习。这标志着「深度学习」概念的正式提出和兴起。
2)2012年,在ImageNet图像识别挑战赛中,Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton共同开发的AlexNet(一个深层卷积神经网络)取得了突破性的成果,以远超第二名的表现赢得了比赛,证明了深度学习在处理复杂高维度数据(如图像、文本和声音)方面的强大能力。
3)2016年,Google DeepMind开发的AlphaGo击败人类围棋冠军,引发了社会对人工智能的广泛关注。
4)2017年,Google提出了Transformer模型,彻底改变了自然语言处理领域,成为后续大型语言模型的基础。
08
写在最后的
但是神经网络的学习能力,是建立在科学的逻辑推理能力(即对变量权重的合理使用)上,而这需要硬件更强大更不计次数的计算能力,因此伴随着神经网络发展的是人类在计算机芯片上的投入和突破。二者是互为一体的。
以上极简神经网络史,离不开芯片发展史。
来源:刘兴亮