摘要:2024年的诺贝尔物理学奖垂青的成果,令物理学界无不意外,居然是“为推动利用人工神经网络进行机器学习作出的基础性发现和发明”。人工神经网络到底是什么?它的潜力,真的可以与基础物理科学相提并论吗?
作者:董雪 许东远
2024年的诺贝尔物理学奖垂青的成果,令物理学界无不意外,居然是“为推动利用人工神经网络进行机器学习作出的基础性发现和发明”。人工神经网络到底是什么?它的潜力,真的可以与基础物理科学相提并论吗?
让我们从数十年前说起……
从数学说起
1943年,神经学家沃伦·麦卡洛克和数学家沃伦·皮茨提出一种以数学建模模拟人脑神经元处理信息的系统,称为“多层感知机”。
上海交通大学自然科学研究院和数学科学学院副教授王宇光介绍,“多层感知机”可视为人工神经网络的一个简化版本,它可以有很多层,每一层含有众多神经元,每个神经元都是一个信息处理器。这一系统的原理颇近于数学中的复合函数,不同的层可以看作不同的函数。
王宇光展示团队研发的人工智能模型 许东远 摄
当年,多层感知机已经可以学习比较常见的映射。比如人看到一张图片会分辨其类别,多层感知机大体能建立这种从图片到类别的映射,前提是层数和神经元足够多,并且数据量充足,训练得比较好。
不过,早期人工神经网络的训练其实颇具挑战性,系统参数量大幅增加,难免左支右绌。直到杰弗里·辛顿取法微积分的链式法则设计了反向传播算法,人工神经网络得以自动调整输入的海量数据的权重,科学家才看到了重大升级的曙光。
不过,前方的路会一直是坦途吗?
走向深度学习
上世纪末,受制于算力稀缺等现实因素,人工神经网络一度陷于沉寂。直到21世纪初,这一领域才风云再起。英伟达研发的GPU极大提升了计算机的并行计算能力,互联网的普及更令人工神经网络的训练如虎添翼。
一个标志性的转机发生在2007年,斯坦福大学教授李飞飞带领团队整理并构建了名为ImageNet的大规模图像数据集,包含约1000万张图片,覆盖1000个不同的类别,这一基础工作为接下来的图像识别研究树立了验证算法是否有效的标准。为了带动更多人投入验证,ImageNet挑战赛应运而生。
这一挑战赛可谓是人工神经网络革命的催化剂,多层感知机在比赛中表现不佳,一步步淡出历史舞台,接力棒交给了AlexNet,时间在2012年。这一年,也就是我们今天耳熟能详的“深度学习”闪亮登场的时刻。
AlexNet最重要的革新,就是引入卷积层,由此构建的卷积神经网络能较好缓解梯度消失问题。误差梯度逐层减小乃至消失,以致无法获得足够梯度信息用以学习,是上一代人工神经网络颇觉为难的事。卷积神经网络的胜利,让更有效率的深度学习成为可能。
模型百花齐放
过去10余年,神经网络模型可谓百花齐放。最具知名度的,可能是战胜围棋大师的AlphaGo、预测蛋白质结构的AlphaFold,二者均出自DeepMind。DeepMind总部位于英国伦敦,那里是剑桥大学和牛津大学毕业生的聚集地,多学科人才通力合作,激发了许多创新火花。目前,剑桥大学的科学家已尝试开发基于图神经网络的扩散模型,用于蛋白质序列设计。中国科学家也参与其中。
值得一提的是,AlphaFold斩获2024年诺贝尔化学奖,DeepMind于11月11日宣布AlphaFold3开源,科学家可以免费下载软件代码,并将AlphaFold3用于非商业用途。
自然语言大模型是备受瞩目的另一条路线。自然语言处理脱胎于计算语言学,与人工神经网络“合体”后,进展日新月异,尤其是Transformer架构的提出,为一系列新模型探索奠定了基础,你我都不陌生的,就是OpenAI的ChatGPT了,可谓人工智能应用的一座里程碑。
来源:九派快讯一点号