人工智能发展简史:从图灵的梦想到深度学习的崛起

360影视 日韩动漫 2025-03-24 22:26 3

摘要:1940年代,在计算机尚处于襁褓时期,英国数学家阿兰·图灵就开始憧憬“能思考的机器”。1950年,他发表了划时代的论文《Computing Machinery and Intelligence》(《计算机器与智能》),提出著名的图灵测试来探讨机器是否具有智能。

原创小重山小重山的学习笔记

一、起源篇:图灵的梦想与早期智能设想

阿兰·图灵(Alan Turing)在20世纪40-50年代提出了许多关于“机器智能”的开创性思想,被后世誉为“人工智能之父”。

1940年代,在计算机尚处于襁褓时期,英国数学家阿兰·图灵就开始憧憬“能思考的机器”。1950年,他发表了划时代的论文《Computing Machinery and Intelligence》(《计算机器与智能》),提出著名的图灵测试来探讨机器是否具有智能。图灵认为,如果一台计算机通过模仿人类对话使测试者无法分辨它是否人类,那么就可以说这台机器在“思考” 。这个大胆的思想实验回避了“智能”难以定义的争论,用可操作的对话测试替代,让“机器能否思考”成为可以验证的问题。

图灵测试标志着人工智能概念的雏形。在这一时期,除了图灵的理论梦想,一些早期科学家和工程师也开始尝试构造“智能机器”的雏形。例如,神经学家沃伦·麦卡洛克(Warren McCulloch)和数学家沃尔特·皮茨(Walter Pitts)在1943年提出了人工神经元模型,用数学方法模拟生物神经元网络,证明简单的神经网络可以实现基本的逻辑功能。

这是史上第一次用网络连接的概念来模拟大脑神经,并被视为现代神经网络理论的开端。同期,加拿大心理学家唐纳德·赫布(Donald Hebb)在1949年提出了“Hebb学习规则”(即“用进废退,异同步则联结”,俗称“神经元同时兴奋则连接加强”),为日后机器学习中的联结主义提供了启发 。

在技术实践上,1951年,马文·明斯基(Marvin Minsky)和迪恩·爱德蒙兹(Dean Edmonds)使用真空管构建了世界上第一台神经网络机器——SNARC,它能模拟老鼠在迷宫中寻路的学习过程。

此外,英国的机械乌龟(Grey Walter’s Turtles)和美国的约翰·霍普金斯野兽等简单机器人也在50年代被研制出来,它们没有数字计算机,而是靠模拟电路实现对光源的追踪等行为 。

这些早期尝试虽然原理简单,却体现了“模拟生物行为”的智能萌芽,为AI的发展播下了种子。

在人工智能尚未命名之前,图灵的思想实验与早期科学家的原型机,勾勒出了“机器智能”的最初蓝图。“机器会思考吗?”——这个问题启发了一代又一代研究者踏上探索之路。

约翰·麦卡锡(John McCarthy)在2006年的一张照片。他在1956年达特茅斯会议上提出“人工智能”一词,被视为AI学科的奠基人之一。

1956年夏天,一场在美国达特茅斯学院举办的学术研讨会被后世视为AI正式诞生的标志。这次为期八周的“达特茅斯夏季人工智能研究项目”汇聚了那个时代最聪明的一群人:年轻的数学家约翰·麦卡锡、20多岁的马文·明斯基,以及信息论之父克劳德·香农(Claude Shannon)和IBM研究员纳撒尼尔·罗切斯特(Nathan Rochester)等。

正是在研讨会的提案中,麦卡锡首次提出了“人工智能”(Artificial Intelligence)这一术语,用来概括会议的主题:“试图让机器精确模拟学习或其他智能行为”。由此,“人工智能”作为一个学科有了名字、有了明确使命,其创始人们雄心勃勃地宣告:任何智能的要素都能被精确定义并交给机器实现

这次会议被称作“AI的宪法会议”。参会者包括了后来几十年引领AI研究的核心人物:雷·索洛蒙诺夫(Ray Solomonoff)、奥利弗·塞尔弗里奇(Oliver Selfridge)、阿瑟·塞缪尔(Arthur Samuel)、艾伦·纽厄尔(Allen Newell)、赫伯特·西蒙(Herbert Simon)等 。其中,纽厄尔和西蒙在会上展示了世界上第一个人工智能程序——逻辑理论家(Logic Theorist),这款程序可以证明几何和逻辑定理,让与会者震惊不已 。从此,AI迎来了第一个黄金时代:50年代末到60年代中期,各种令人惊叹的智能程序层出不穷,计算机能够证明数学定理、解答代数文字题,甚至学会说简单的英语。这些早期成就让许多人相信,“类人智能”的机器指日可待。当时的研究者普遍乐观,甚至公开预测“一台真正聪明的机器将在一代人之内造出”

这一时期的AI主要采用符号主义方法,也称基于规则的人工智能。研究者受到数学逻辑的启发,尝试用符号和规则来表示人类知识与推理过程。例如,西蒙和纽厄尔继逻辑理论家之后,又开发了通用问题求解器(General Problem Solver),试图用一套通用算法解决各种抽象问题。约翰·麦卡锡本人则在1958年发明了Lisp语言,这是一种擅长符号处理的编程语言,后来广泛用于AI编程。那时的人们相信,只要将人类专家的知识转换为计算机可执行的规则(if-then),机器就能像专家一样进行推理判断。基于这一思路,专家系统在60-70年代陆续出现:例如用于医学诊断的MYCIN系统,通过编码数百条医疗规则,能够根据症状给出疾病和处方建议。

符号主义AI的代表人物还有爱德华·费根鲍姆(Ed Feigenbaum)等,他们构建的DENDRAL系统可以帮助化学家推断分子结构。这些系统在特定领域表现出色,一时间让AI声名大噪。

然而,早期符号AI也埋下了隐忧。当研究者尝试让机器解决更复杂、更开放的问题时,发现仅靠手工编写的规则远远不够。事实证明,智能行为中有大量常识和隐含知识,难以用符号规则逐一列举。比如,让计算机理解语言中的歧义或常识推理,远比证明数学定理要棘手。尽管如此,60年代末之前的AI领域仍沉浸在乐观情绪中,资金和人才大量涌入,各国政府也竞相支持——美国国防高级研究计划局(ARPA)在这一时期投入巨资,希望尽早实现机器智能的愿景。

第一次AI浪潮以符号主义为特征。人工智能作为正式学科诞生于1956年达特茅斯会议,在麦卡锡等先驱推动下蓬勃发展。早期的AI程序展现了令人惊叹的“聪明才智”,让人们相信人类智力的秘密将很快被解开。然而,这股狂热很快就会遇到现实的考验。

上世纪60年代末到70年代初,人工智能领域开始从高峰走向低谷。这段时期后来被称为“第一次AI寒冬”(1974–1980),原因在于早期雄心勃勃的AI项目没有兑现夸下的海口。政府和资方对AI的耐心逐渐耗尽,大笔研究经费被削减甚至叫停 。具体来说:

机器翻译碰壁: 早在60年代初,美国投入巨资试图让计算机自动翻译俄语,但效果始终不理想。1966年,美国政府委托的ALPAC报告尖锐地批评了机器翻译研究,认为数千万美元的投入收效甚微。此报告直接导致机器翻译项目经费被砍光。这是AI领域首次因为无法满足预期而遭遇重大挫折。大西洋彼岸的质疑: 1973年,英国著名数学家詹姆斯·莱特希尔(James Lighthill)向政府提交了一份关于人工智能现状的调查报告。莱特希尔报告毫不客气地指出,尽管AI宣传了远大的目标,但实际成果非常有限,“既没理解智能,也未实现有用的系统”。报告直言AI未能达到“宏伟目标”,建议政府停止不切实际的研究投入。结果,英国的大部分AI研究项目被撤销,许多实验室被迫关门。军方撤资: 美国ARPA在60年代资助了很多自由探索性的AI研究,但到70年代初也开始要求“有明确军事用途”的成果。由于看不到短期应用,ARPA缩减了对诸如语音理解、机器人等项目的资金支持 。1969年,美国通过的曼斯菲尔德修正案要求军方只资助与具体国防目标相关的科研,这使得很多基础性的AI研究失去资助来源。学术批评: 除了资金问题,AI理论本身也受到挑战。一些哲学家和计算机科学家开始质疑AI早期的基本假设。例如,休伯特·德雷福斯(Hubert Dreyfus)在1972年出版的《机器不会下棋》一书中嘲讽AI研究者“信口开河”,认为人类智能依赖身体和直觉经验,不是符号程序所能模拟的。一时间,“AI过度吹嘘”成为学术圈的共识,不少人断言通用人工智能在理论上就不可能实现

上述因素交织在一起,导致70年代中期AI研究陷入停滞。这段AI寒冬的直接结果是:许多AI项目被砍,研究经费锐减,年轻人才转向别的领域。只有少数学者坚守阵地,比如艾伦·纽厄尔和卡内基梅隆大学的团队继续研究知识表示和专家系统,但整体而言AI热潮已退。值得注意的是,这一时期日本和前苏联等国的AI研究也受到波及,全球范围内AI都进入了低潮。

寒冬的启示: 第一次AI寒冬让研究者痛定思痛,认识到智能的复杂性远超想象。早期的乐观很多建立在对问题难度的低估上。正如机器人专家汉斯·莫拉维克(Hans Moravec)后来所说:当年的科学家被自己编织的乐观之网困住了,外界对AI能力的期望远远超出了现实 。这场挫折促使AI领域开始寻求新思路:既包括更扎实的数学基础,也包括更务实专注的研究方向。正是在寒冬之后,机器学习等新的分支慢慢孕育,为下一次崛起做准备。

经历了70年代的低谷,人工智能并未停滞不前。80年代初,AI领域出现了复苏的迹象,主要有两股力量推动:一是专家系统在工业界的成功应用,二是机器学习思想的兴起,尤其是神经网络技术的重新燃起希望。

1980年代,被称为“知识工程”的专家系统掀起商业热潮。得益于上一代在医疗和化学领域专家系统的成果,美国公司纷纷投入开发用于企业决策的AI软件。典型例子是数字设备公司(DEC)的XCON系统,用于配置计算机部件,显著提高了生产效率。许多大型公司成立AI部门,AI公司如Symbolics等也获得巨额投资。到80年代中期,专家系统产业每年产值达数亿美元,AI再次成为热门词。

然而,好景不长。专家系统的局限逐渐暴露:首先,它们开发和维护成本极高,需要专家不断提供规则,无法自动学习新知识;其次,这些系统脆弱(brittle)——一旦遇到超出规则范围的情况可能犯荒唐的错误。同时,随着微型计算机性能提升,运行专家系统所需的昂贵Lisp工作站市场在1987年突然崩溃:当年苹果和IBM的普通电脑性能已超越专用AI工作站,后者销量一落千丈。大量AI创业公司在短时间内破产或被收购,投资人兴趣转移。美国国防部的战略计算计划也在80年代末削减了对AI的投入,转而支持更现实的项目 。结果,到1993年前后,超过300家AI公司关门,符号AI的商业浪潮宣告结束。

这第二次低谷被称为“第二次AI寒冬”(约1987–1993)。值得庆幸的是,即使在寒冬期,AI技术本身并未停滞,而是“潜伏”在其他领域悄然发展。例如,数据挖掘、工业机器人、语音识别、搜索引擎等在90年代获得突破性进展,却往往不打“AI”标签 。正如哲学家尼克·波斯特罗姆所说:一旦某项AI技术变得有用而普及,人们就不再称其为AI了。——许多曾属于AI的成果融入日常技术中了。这个时期,计算机下棋实力也大增,IBM的深蓝(Deep Blue)在1997年战胜了国际象棋冠军卡斯帕罗夫,将AI推向大众视野。但深蓝的成功主要归功于强大的计算能力和精巧的算法(博弈树搜索和棋谱数据库),与学习型AI关系不大。

与此同时,另一股更为安静但持久的力量在AI圈萌芽,那就是统计机器学习。与符号主义强调人类可解释的规则不同,机器学习关注如何让程序从数据中自动提取规律。早在1959年,明斯基的同窗阿瑟·塞缪尔就设计过一个能自学下棋的跳棋程序,这是机器学习的早期例子 。但真正将机器学习推向主流的是80年代中期之后的发展:

理论基础:1984年,统计学家莱奥·布雷曼等人推动的决策树方法、1986年蒂姆·米切尔等人提出的版本空间、1988年理查德·萨顿将强化学习形式化为马尔可夫决策过程 ……一系列理论工作为机器学习奠定了数学基础。尤其是1986年由鲁米哈特(Rumelhart)等发布的《并行分布式处理》一书,系统介绍了联结主义模型(即神经网络)和误差反向传播算法,让训练多层神经网络成为可能。这被认为是神经网络的重大里程碑。算法与模型:90年代出现了许多实用的机器学习算法,例如决策树C4.5、支持向量机(SVM)、朴素贝叶斯分类、隐马尔可夫模型(HMM)等。相比专家系统,它们不依赖人工编写规则,而是从海量样本中学习出预测模型。这些算法在手写数字识别、垃圾邮件过滤等问题上表现优异,展示了机器学习的威力。数据与算力:机器学习的成功离不开数据集和计算力的支撑。随着互联网和数据库技术的发展,可用于训练的数据规模呈指数增长。同时,摩尔定律推动下,90年代中后期的计算机有了足够性能训练较复杂的模型。这个过程中,许多AI研究者甚至刻意回避使用“AI”一词,以免触动寒冬的阴影,而是以“模式识别”“数据挖掘”等名义展开研究 。然而核心思想一脉相承:让机器自主“学习”。

在机器学习各分支中,人工神经网络可谓命运多舛。它最初在50-60年代兴起,后来因为明斯基和帕普特1969年的著作《感知器》指出单层神经网络的局限而备受打击,研究一度停滞。但80年代中期,随着反向传播(Backpropagation)算法重大发现,神经网络重获新生 。反向传播算法让多层神经网络(具有隐藏层的感知器)可以高效调整内部权重,从而自主学习复杂的映射关系。1986年,杰弗里·辛顿(Geoffrey Hinton)、大卫·鲁米哈特等人在《Nature》上发表论文阐述了反向传播训练神经网络的效果,引起轰动。神经网络从学术边缘重新走向台前,一时间“联结主义”研究浪潮再起。

然而,由于计算能力和数据的限制,80-90年代神经网络能解决的问题规模有限,业界对其前景看法不一。不少人将其归为一时的“炒作”。在第二次AI寒冬中,神经网络研究也受冲击,资金减少。但辛顿一直坚信神经网络的潜力。这位出生于英国、赴加拿大发展的计算机科学家,在寒冬岁月中执着探索改进神经网络的途径。2006年,辛顿等人提出了深度置信网络(Deep Belief Network),巧妙地用逐层预训练克服深层网络训练困难。虽然当时这一成果尚未引发主流关注,但已经埋下了深度学习革命的种子。

“深度学习教父”杰弗里·辛顿(Geoffrey Hinton)。他在神经网络低潮时依然坚持研究,并于2006年提出深层网络的有效训练方法,为日后深度学习热潮奠基。2018年,辛顿因在深度学习领域的贡献与杨立昆、约书亚·本希欧共同获得图灵奖。

辛顿的故事体现了一种理念之争:符号主义者强调人类知识和逻辑,联结主义者相信从数据中涌现智能。辛顿正是后者最坚定的代表。他曾回忆说,在1990年代,阻碍神经网络发挥威力的主要问题是“我们的数据集小了三四个数量级,计算机也慢了六个数量级”。换言之,当年硬件性能和数据规模还远不足以托起深层网络。但辛顿等人坚信“风物长宜放眼量”,等待技术环境成熟的那一天。果然,进入21世纪第二个十年后,互联网提供了海量数据,GPU等硬件的并行计算能力飞速提升,曾经“训练不起、养不大”的深度神经网络终于迎来了用武之地。

进入21世纪2010年代,人工智能迎来了“深度学习”主导的新革命。如果将之前的机器学习比作小打小闹的“单层功夫”,那么深度学习就是多层次的大规模神经网络,它让机器能够从海量数据中自动提取高层次特征,一举攻克了许多过去认为“计算机不可能战胜人类”的任务。这场革命的到来并非偶然,而是“天时、地利、人和”共同作用的结果:

天时(大数据):随着互联网、社交媒体和物联网的发展,人类产生的数据量呈爆炸式增长。存储和处理海量数据变得廉价可行。机器学习模型终于有足够“粮食”喂养,从前稀缺的数据样本如今动辄成千上亿。实践证明,在很多AI任务上,数据规模提升几个数量级带来的性能改进,远胜过算法微调 。这一点在语音识别、图像识别中尤为明显。丰富的数据为深度模型提供了肥沃土壤。地利(算力):硬件技术的进步为深度学习插上了翅膀。2006年前后,图形处理器(GPU)在游戏领域大发展,它恰好擅长矩阵并行计算,非常适合加速神经网络训练。此外,云计算兴起,计算资源可以按需获取。辛顿打比方说,以前我们的计算机“慢了百万倍”,而如今并行计算、大规模分布式训练使得以往几个月的训练任务现在几天甚至几小时就能完成。这算力飞跃解决了深层网络训练耗时的问题。人和(算法突破):在数据和算力准备就绪的同时,算法上也有了关键突破。除了前述反向传播算法的成熟,2010年前后研究者解决了一些训练深层网络的实用技巧,如更好的权重初始化、正则化方法(Dropout等)以及激活函数改进(ReLU等),极大缓解了深层网络训练中的梯度消失等难题。此外,新架构层出不穷,如卷积神经网络(CNN)在图像领域表现卓越,循环神经网络(RNN/LSTM)在序列数据上取得成功。这些算法创新让深度学习模型既更深又更有效。

多层神经网络(深度学习)的示意图:红色节点为输入层,蓝色节点为隐藏层,绿色节点为输出层。深度学习通过增加“隐藏层”数量,使模型能够逐级抽取更抽象的特征。

简单来说,深度学习就是具有多层“隐藏单元”的人工神经网络。最早的感知器只有输入和输出,而深度神经网络包含若干隐藏层,每层由许多“神经元”节点组成。每个节点通过加权连接接收前一层的信息,经过非线性激活函数处理,再传递给下一层。网络的第一层可能学到输入数据的底层特征(如图像的边缘、角落),中间层进一步组合形成更高级模式(如图像里的轮廓、部件),越往深层抽象程度越高,直到最后输出层完成特定任务(如判断这张图片中是猫还是狗)。这个分层逐级提炼的过程有点类似人脑的视觉皮层,将原始像素逐步组织成有意义的概念。

深度模型厉害之处在于:它的特征表示是由数据自动学习出来的,不需要人工设计。过去传统的方法需要专家手工提取图像的颜色纹理特征、语音的音频特征等,再交给机器学习分类器。而深度学习端到端地学习,从原始数据直接学习到决策输出,中间特征都是内部自优化的。虽然这些内部特征对人来说不一定直观可解,但实践证明这种“让数据说话”的方法威力无比。当然,深度学习的训练非常依赖庞大的计算和数据支持——在计算能力和大数据出现之前,深度模型虽然理论上存在,但难以应用 。正因如此,有人调侃深度学习是“用大炮(GPU)+飞船燃料(大数据)炒菜”,需要在特定时代条件下才能烹饪成功。

2012年被许多人视为深度学习革命元年。这一年,加拿大多伦多大学的研究生Alex Krizhevsky在其导师杰弗里·辛顿的指导下,训练了一个深度卷积神经网络(后世称为AlexNet),参加年度ImageNet图像识别竞赛。结果,AlexNet一鸣惊人,以远低于第二名错误率的成绩夺冠,错误率比传统方法整整降低了10个百分点以上 !这是计算机视觉领域史无前例的巨大飞跃,引发全球轰动。从此,视觉识别的范式迅速从人工设计特征的SVM等方法转向深度CNN。可以说,2012 ImageNet竞赛是深度学习的高光时刻,标志着深度学习从实验室进入工业界的全面胜利。

随后几年,深度学习捷报频传,在诸多AI任务上刷新纪录

语音识别: 2011年前后,微软和谷歌相继引入深度神经网络用于语音识别,使得语音转文字的准确率大幅提高,首次在电话语音等复杂场景超过了传统GMM-HMM模型。到2016年,微软宣布其语音识别系统在标准测试集上的错误率达到与人工转录相当水平,这是历史性突破。自然语言处理: 2014年,谷歌大脑团队提出了序列到序列(Seq2Seq)模型,用两端的LSTM网络实现机器翻译,在多种语言对上效果显著提升。2018年,Transformer架构(自注意力机制)进一步将NLP带入新纪元。基于Transformer的模型如BERT、GPT系列,使机器在阅读理解、问答对话等任务上达到了前所未有的水准。游戏智能: 2016年,DeepMind公司的AlphaGo程序击败围棋世界冠军李世石,引发全球瞩目。AlphaGo将深度神经网络与蒙特卡洛树搜索、强化学习结合,展示了AI在极复杂博弈上的潜能。此后升级版AlphaZero甚至无需人类棋谱,就能自学掌握围棋、国际象棋等棋类的超人水平。内容生成: 2014年诞生的生成对抗网络(GAN)开启了AI内容创作的新领域,用两个神经网络相互博弈,可生成以假乱真的图像。2021年OpenAI发布的DALL·E和2022年的DALL·E 2,能根据文字描述生成图像,令人惊叹。深度学习还用于音乐、文本、代码等多模态生成,AI的创造力开始展现。尤其2022年底,OpenAI的ChatGPT出现,使大众亲身体会到AI生成式对话的强大,引发全民热议。

人工智能发展大事记时间轴(1900–2025):图中标出了从20世纪初至今AI领域的重要里程碑事件和技术节点,包括两次“寒冬”(1st Winter, 2nd Winter)和近年来的大模型与生成式AI突破等。深度学习的崛起使AI在2010年代后呈指数级发展。

深度学习所向披靡,在计算机视觉、语音、语言、机器人等各个AI子领域全面开花,取得数量级的性能跃升。这一现象极大地提振了产业界和资本市场对AI的信心,引发了新一轮投资热潮。从2012年开始,全球科技巨头争相成立AI研究院,招揽顶尖人才;AI初创公司层出不穷,各行业拥抱AI转型。可以说,深度学习引领了2010年代的“AI复兴”,让人工智能真正走出实验室,融入大众生活。

然而,深度学习的爆发也带来新的挑战,比如模型的黑箱性(难以解释内部机制)、对数据的饥渴(需要大量标注数据)以及对计算资源的依赖。研究者们一方面继续优化深度模型,另一方面也在探索如何让模型更高效、更透明。这些努力催生了诸如迁移学习、少样本学习、模型蒸馏等技术,以减少对数据和算力的需求。另外,如何结合深度学习与符号逻辑,让AI拥有推理和常识能力,也成为新的研究热点。

深度学习革命使人工智能实现了质的飞跃。凭借大数据训练的深层神经网络,机器在许多感知和认知任务上达到了或超越人类水准 。这不仅让AI重新站上科技浪潮的风口,也使得人类开始认真思考AI更宏大的前景和隐忧。

进入2020年代,人工智能继续高速发展,其显著特征之一就是“大模型”的涌现。所谓大模型,是指拥有海量参数和训练数据的通用AI模型,它们往往在一个宽泛领域(如语言、图像)经过大规模预训练,然后可以通过微调适应各种下游任务。这一思路在自然语言处理领域取得了惊人的成果,代表性的里程碑有:

GPT系列与大语言模型: 2018年,OpenAI发布了GPT(Generative Pre-trained Transformer)模型,首次展示了预训练Transformer在语言任务上的强大生成能力。随后参数规模迅速攀升:2019年的GPT-2有15亿参数,2020年的GPT-3猛增至1750亿参数 。如此庞大的模型通过在海量文本语料上的自监督训练,学习到了丰富的语言模式和知识。GPT-3发布后,业界震惊于它能在零样本或少样本情况下执行翻译、问答、文章写作等多种任务,其表现远超以往专门训练的模型。这标志着大语言模型(LLM)时代的开启。ChatGPT的横空出世: 2022年底,OpenAI基于GPT-3.5模型推出对话机器人ChatGPT,对话体验之流畅、回答之详细令大众为之惊叹。ChatGPT在上线短短两个月内用户数即突破1亿,创下历史上用户增长最快的消费级应用记录 。它之所以如此成功,一方面在于背后大模型具备强大的语言理解和生成能力,另一方面OpenAI通过人类反馈强化学习(RLHF)对其进行了精心打磨,使回答更符合人类期望。ChatGPT引发的轰动使“生成式AI”一夜之间家喻户晓,各行各业开始想象利用它提升效率的新场景。多模态生成模型: 除了文本,大模型也扩展到图像、音频等领域。以OpenAI的DALL·E和DALL·E 2为代表的文本生成图像模型,能够根据用户的一段描述创造出栩栩如生的图片。在开源社区,Stability AI发布的Stable Diffusion模型更是掀起了AI绘画热潮。人们惊喜地发现,AI已经可以掌握美学风格和创意构图,“画图不求人”成为现实。2023年,生成视频、3D模型的AI也在萌芽,未来有望实现任意媒介的内容生成。可以预见,生成式人工智能(Generative AI)将给艺术创作、设计、娱乐等行业带来翻天覆地的变化。

在大模型和生成式AI蓬勃发展的同时,AI的能力边界不断被拓宽。一些模型展示出跨领域的“涌现能力”,即在训练中并未见过的任务上也能举一反三。例如,GPT-4据称不仅语言理解一流,还表现出解题、编程甚至幽默创作等方面的令人惊讶的能力。这使得学术界和产业界对于通用人工智能(AGI)的讨论再次升温。

然而,我们也必须清醒地看到,现代AI虽然强大,但离真正的通用智能仍有距离。时下的大模型主要是被动预测和生成,并没有自主的理解、规划和常识推理能力。ChatGPT一类模型有时会产出看似合理但实则谬误的答案(俗称“幻觉”现象),因为它们缺乏对事实的可靠校验机制。此外,训练这些模型所需的数据和计算资源极其庞大,只有极少数大型机构负担得起,这引发了对AI集中化的担忧。

伦理与社会影响: 现代AI的快速发展也带来了前所未有的伦理挑战和社会影响。偏见与公平问题首当其冲——大模型从互联网学习,不可避免地继承了数据中的偏见,如果不加防范,AI可能放大或延续歧视 。此外,隐私安全也是热点话题:AI生成逼真的假新闻、假视频(Deepfake)可能误导公众;自主系统失控可能造成现实危害。近年来,学界和产业界开始重视AI伦理和安全研究,例如讨论如何让AI系统的目标和人类价值观保持一致,即所谓“价值对齐”(Alignment)问题。世界各国也在积极探索监管措施。欧盟率先提出《人工智能法案(AI Act)》,试图对高风险AI应用进行规范。可以预见,技术的进步必须伴随着治理的进步,才能确保AI造福人类社会。

现代人工智能进入了大模型与生成式AI的新时代。一方面,通用大模型在各种任务上展示了强大的适应能力,拉近了人们与通用人工智能的距离;另一方面,这些模型的不可解释性、资源垄断以及潜在风险引发新的课题。AI正以前所未有的影响力改变着世界,我们也比以往任何时候都更加需要理性审视和引导这项技术的发展。

从图灵在冷战时期对机器智能的浪漫畅想出发,人工智能已经走过了起伏不定的七十多年征程。我们见证了它的童年期:简单规则和模型萌发出看似智慧的火花;经历了它的青春期:狂热与挫折交织,几度跌入寒冬;也参与了它的成年礼:以深度学习为标志的新突破让AI真正展翅高飞,融入社会生产生活。

纵观AI的发展史,可以发现几个鲜明的主题:

跨学科融合:人工智能从诞生之日起,就站在数学、计算机、生物学、心理学等多学科的交叉点上。每一次进步都离不开不同领域思想的碰撞,例如神经科学启发了神经网络,统计学丰富了机器学习理论,计算机硬件的发展提供了实现载体。技术与哲学交织:AI不仅是工程技术,也是对“智慧”“心灵”这些哲学命题的探究。图灵测试、中文房间等思想实验,一直伴随着AI的发展,引发我们对人类自身认知本质的反思。可以说,人工智能是一面镜子,让我们更好地审视“智能”意味着什么。一波三折,螺旋上升:AI的发展并非一帆风顺,而是高潮—低谷交替出现。然而,每一次低谷后的再崛起,都站在了更高的起点上。无论是从符号AI到机器学习,还是从浅层学习到深度学习,AI每经历一次挫折,都会涌现新的思路,推动技术进入新的阶段。人机关系演进:早期的AI更多被当作工具和程序,而随着AI能力增强,我们开始把它视为潜在的合作者,甚至是代理决策者。如何正确定位AI的角色,平衡人类与AI的关系,是贯穿AI史的一条暗线。未来,随着AI进一步智能化,这个问题将变得更加现实而紧迫。

正如图灵最初的梦想——机器可以思考——已经在某种程度上成为现实,那么下一个梦想又将是什么?或许是人机协作共同拓展文明的边界,或许是智慧物种在地球上的新共生格局。这一切,取决于我们今日的选择和努力。

从图灵的梦想出发,我们已经走过了七十余年的征程;展望未知的明天,这场关于智能的革命仍将继续,而我们每一个人都是这段历史的见证者和塑造者。

来源:人工智能学家

相关推荐