从神经网络到DeepSeek:Transformer模型的前世今生(1)

360影视 2025-02-01 17:00 1

摘要:随着DeepSeek的火爆逐渐散去,是时候梳理一下人类在探索人工智能这条路上的各个节点了。在这里,我借助于DeepSeek的帮助,写一篇科普文章,希望能够帮助行业外的普通大众了解一下这个行业内到底发生了什么,为什么会这样发生。希望大家能从民族主义的简单狂热中更

随着DeepSeek的火爆逐渐散去,是时候梳理一下人类在探索人工智能这条路上的各个节点了。在这里,我借助于DeepSeek的帮助,写一篇科普文章,希望能够帮助行业外的普通大众了解一下这个行业内到底发生了什么,为什么会这样发生。希望大家能从民族主义的简单狂热中更清醒更深刻地理解DeepSeek,更客观地认识到我们现在走到了哪里,这一路是如何过来的,以及未来将如何走。如果能鼓励更多的年轻人参与到这个必将改变人类未来的浪潮中来,则也算是一点小小的贡献。

想象一下,你脑中浮现的每个句子,都是一团混沌闪烁的神经电信号。如果让机器破译这种「脑电波密码」,它需要完成两次跨越物种的翻译:第一次,把人类语言转化为数学向量;第二次,从数学反馈中生成有温度的文字。而DeepSeek令人惊叹的对话能力,正源于一个名为Transformer的「脑电波翻译器」的诞生。

2017年,Google论文《Attention Is All You Need》悄然颠覆了游戏规则。Transformer不再逐字翻译,而是将整个句子铺展成「思维地图」:

婴儿学步(DNN/CNN):从识别猫狗到读懂字母记忆进化(RNN/LSTM):学会用上下文猜谜语思维觉醒(Transformer):最终获得人类式的联想与推理

当你问DeepSeek“为什么晚霞是红色的”,它并非搜索标准答案,而是在0.1秒内:

激活:12层神经网络中的4.7亿条关联路径模拟:数万篇物理文献与诗歌描写的交叉印证创作:生成一段既有科学解释又含浪漫隐喻的文字
——而这,正是Transformer将「脑电波翻译术」推向极致的证明。

下节启程:回到1980年代的实验室,看AI如何从认数字的“婴儿”成长为读图识字的“小学生”……

想象你走进一家神奇的蛋糕店,柜台上摆着一个由20层薄饼堆叠的千层蛋糕。每一层薄饼都会对食材进行加工:第一层筛出面粉中的杂质,第二层调配奶油甜度,第三层检测烘烤温度…… 深度神经网络(DNN) 就像一个这样的“千层蛋糕工厂”,只不过它的原料不是面粉,而是数据;它的工人不是厨师,而是名为神经元的微型计算器。

每个神经元都像一台带旋钮的计算器:

输入:接收前一层传来的数字(比如“图片中某像素是红色的概率=0.93”)计算:转动旋钮(即权重),将输入值乘以特定系数输出:通过一个“质检闸门”(激活函数),只让有意义的结果传递到下一层

当一张猫的图片输入网络时,数据会像流水线一样穿过数百层神经元的加工:

前10层识别边缘和色块(“这里有尖尖的轮廓!”)中间30层组合局部特征(“两个三角形可能是耳朵”)最后1层得出结论(“综合判断:87%是猫,11%是狐狸,2%是毛绒玩具”)1958年·美国
心理学家弗兰克·罗森布拉特(Frank Rosenblatt)发明感知机——仅有一层神经元的原始模型。它能学会区分简单图形(比如圆圈和方块),但被嘲讽为“连异或逻辑都学不会的玩具”。《纽约时报》却激动地宣称:“海军将拥有能走路、说话、看东西的电子脑!”1986年·逆袭时刻
因感知机缺陷陷入低谷的神经网络,因三位科学家的论文《通过误差传播学习内部表征》重获新生。杰弗里·辛顿(Geoffrey Hinton,后被誉为“深度学习教父”,2024年与约翰·霍普菲尔德共同获得诺贝尔物理学奖)与团队提出的反向传播算法,终于让多层网络训练成为可能。这相当于给千层蛋糕工厂装上了自动纠错系统:如果工人把盐当成糖,系统会逆向追踪到出错的那层,调整对应的旋钮。2012年·封神之战
辛顿带领学生在ImageNet图像识别竞赛中,用DNN将错误率从26%骤降至15%,碾压所有传统算法。这场胜利如同AI界的“莱特兄弟首飞”——尽管他们的模型只有8层,却让全球实验室意识到:堆叠更多层数,机器将看得比人更准。

杰弗里·辛顿(Geoffrey Hinton)

然而,DNN有一个致命缺陷——它像一台只能处理标准信封的邮局分拣机:

输入必须整齐:所有图片必须缩放成相同尺寸(如224x224像素)无法理解序列:若让它读句子,要么把长文截断,要么用空白填充短文机械记忆陷阱:2014年谷歌发现,某个DNN判断“非洲象”的标准,竟是照片背景中更常出现的草地纹理

这种僵化的结构,使得DNN在语言处理中漏洞百出。例如翻译“I saw a man on a hill with a telescope”(我在山上用望远镜看到一个人/我看到山上有个人拿着望远镜),DNN只会机械匹配单词,无法像人类一样根据上下文动态调整注意力。

DNN最早的商业应用之一是银行支票识别系统(1990年代),它能从潦草的手写数字中分辨“7”和“9”,但遇到连笔字仍会出错。辛顿曾用“煎饼网络”比喻DNN:“如果你问一层薄饼能不能思考,答案是不能。但当你堆叠1000层,魔法就发生了。”2012年夺冠的DNN用两颗GPU训练了一周,而今天同规模模型只需10分钟——算力爆炸让千层蛋糕变成了摩天大楼。

下一节预告:当DNN在语言迷宫前碰壁时,另一群科学家从人类视觉中获得灵感,发明了“自带放大镜”的CNN模型……

想象你戴着侦探帽,手持放大镜观察一幅世界名画的赝品。你不会一次性扫描整幅画,而是用三种特殊工具逐块鉴定:

放大镜(卷积核):在画布上滑动检查局部特征(比如梵高标志性的漩涡笔触)简化工序(池化层):把“这里有三处黄色色块”简化为“此处有向日葵元素”最终鉴定(全连接层):综合所有线索判定“这是梵高风格的概率为92%”

这就是卷积神经网络(CNN)的工作方式——它模仿人类视觉的「局部感知」能力,通过层层抽象理解图像本质。与DNN的“千层蛋糕工厂”不同,CNN更像是艺术鉴定专家:

1980年·法国
青年学者杨立昆(Yann LeCun,2018年图灵奖得主)在巴黎读博时,发现生物视觉皮层存在“局部感受野”——人眼不会一次性处理整个画面,而是通过局部扫描提取特征。这一发现成为CNN的理论基石。1989年·贝尔实验室
杨立昆加入美国贝尔实验室,开发出首个实用化CNN模型LeNet-5,用于识别手写邮政编码。他在论文《反向传播应用于手写邮政编码识别》中首次提出“权值共享”概念——让所有位置的放大镜使用同一套鉴定标准,极大减少了计算量。1998年·寒冬降临
尽管LeNet-5在银行支票识别中表现优异,但学界普遍认为“这种复杂模型没有未来”。《纽约客》甚至嘲讽:“让机器看懂数字?不如先教会它系鞋带。”直到2012年,这项被雪藏的技术才迎来转机。

杨立昆(Yann LeCun)

2012年,加拿大博士生亚历克斯·克里热夫斯基(Alex Krizhevsky)用AlexNet(深度CNN模型)在ImageNet竞赛中一鸣惊人,将图像识别错误率从25%降至15%,点燃了深度学习革命:

医学突破:CNN在乳腺癌筛查中准确率超越人类放射科医生文化奇观:Google Arts & Culture用CNN匹配用户自拍与历史名画世纪对弈:2016年AlphaGo凭借CNN“看”懂围棋棋盘,击败世界冠军李世石

最精妙的应用当属病理诊断:当CNN观察肺癌细胞切片时,它会:

序列盲区:CNN像只能看懂单幅漫画的读者,无法理解连环画中的时间线索(比如“蝙蝠侠打碎了玻璃”和“玻璃碎了是因为蝙蝠侠”会被视为相同信息)固定视野:每个放大镜只能查看预定范围(如3x3像素),难以捕捉长距离依赖(比如“虽然昨天下雨……但是小明……”中的逻辑转折)维度诅咒:处理视频需要扩展为3D卷积核,计算量呈指数级增长

2014年,MIT用CNN尝试生成电影字幕,结果闹出笑话:当画面出现“男子手持玫瑰下跪”,模型输出“运动员在投掷标枪”。问题根源在于CNN缺乏理解动作连贯性的能力。

下一节预告:当CNN在语言迷宫中迷失时,另一群科学家决定赋予AI“记忆能力”,由此开启了RNN与LSTM的篇章……

来源:走进科技生活

相关推荐