如虚如实说|Deep Seek那么强,用的是什么算法?

360影视 国产动漫 2025-03-24 10:32 5

摘要:最近国产的AI软件Deep Seek异军突起,全球的AI市场都为之震动。Deep Seek用的是什么算法?它与Chat-GPT有何不同?今后还会有更多的“Deep Seek”吗?

最近国产的AI软件Deep Seek异军突起,全球的AI市场都为之震动。Deep Seek用的是什么算法?它与Chat-GPT有何不同?今后还会有更多的“Deep Seek”吗?

算法,顾名思义,就是计算的方法。1+1= 2,2×2 = 4……可以直接计算,不是算法。算法是经过多步推算的方法。算法自古有之。根据目前的考古发现,最早的算法是古代巴比伦人发明的,距今已有3700年。他们有多个算法。例如计算直角三角形斜边的长度(图1)、计算平方根等等。他们用是60进制的计数方法。今天我们用的每小时60分钟就是从那里来的。

图1,3700年前古巴比伦的泥板记录着计算直角三角形斜边长度的算法

在公元前200年左右,古希腊的数学研究世界领先。古希腊人也发明了多个算法。例如埃拉托色尼(Eratosthenes,约公元前276年—公元前195年)给出了一个寻找素数(或称质数)的方法。所谓素数就是只能被1或自己整除的数。埃拉托色尼的算法如下:

题目:筛选出素数

算法:

列出自然数:1,2,3…到要筛选的最大数;

从2开始,重复以下步骤

找出第一个没有被圈出来或划掉的数字

把它圈出来

划掉这个数字所有的倍数

当所有的数字都被圈出来或划掉时,停止重复,圈出的数字就是素数。

读者可以尝试找找从2到15有几个素数(从2到15间的素数有6个:2,3,5,7,11,13)。这个方法就叫做埃拉托色尼筛法。这个方法用起来费时费力,数字太多时根本无法完成。

两千多年来许多数学家研究过寻找素数的算法,其中包括法国科学家马林·梅森(Marin Mersenne,1588年—1648年)(参见如虚如实说|声音是如何传播的?)。他给出的算法公式是2n-1。

这个算法给出的是素数是必要条件,但不是充分条件,需要确认巨量的运算。目前发现的最大的素数代号为“M136279841”(即n = 136279841),共有四千一百多万位数。素数可用用于编码、加密等。

埃拉托色尼最出名的贡献是首先计算出了地球的直径(图2)。他通过测量亚历山大港与阿斯旺两地(南北相距800千米)在夏至(日最长,夜最短)正午(日影最短)时日影的差别推算出地球的直径为40,074千米。这个推算比实际距离仅仅相差66千米。

值得一提的是唐代的一行(本名张遂,683年—727年)主持制定《大衍历》。这个历法是当时世界上最准确的历法。他也注意到南北日影的差别,“日影一寸,地差千里”。不过当时人们认为“天圆地方”,没有人认识到地球是圆的。

图2,埃拉托色尼(左)推算地球的直径

古希腊的数学主要是几何学。到了公元800年左右,阿拉伯学者穆罕默德·本·穆萨·阿尔·花剌子模(Abu Abdulloh Muhammad ibn Muso al-Xorazmiy,约780年—约850年)开创了代数学(图3)。他有一本名著《代数学》。

1200年左右,意大利学者斐波那契(Leonardo Pisano Fibonacci,1175年—1250年)把代数学引进了欧洲。“代数”和“算法”也因此得名。代数(Algebra)源自阿拉伯文的译音“al-jabr”,意为求解代数方程的方法。

算法(Algorithm)源自阿拉伯文“al-Xorazmiy”的译音“al-Khwarizmi”,是穆罕默德·本·穆萨·阿尔·花剌子模的出身地。

花剌子模曾是一个国家,后被成吉思汗(孛儿只斤·铁木真,1162年—1227年)灭国,现位于乌兹别克斯坦的Khiva一带。

图3,穆罕默德·本·穆萨·阿尔·花剌子模

随着计算机技术的发展,各种各样的算法层出不穷:信号处理的算法、图像处理的算法、计算机仿真的算法、数据分析的算法…...人工智能技术更是非算法不可。我们曾经介绍过,人工智能的算法有五大类:

01贝叶斯网络:广东科学中心「院士说」 | 人工智能算法之一:贝叶斯算法

02逻辑决策:

03神经元网络:

04遗传算法:

05模式识别:

到了20世纪末,神经元网络算法一花独秀(参见如虚如实说|人工智能的里程碑)。神经元网络算法也分为多种。例如荣获2023年诺贝尔物理学奖的约翰·霍普菲尔德(John J. Hopfield,1933年—)发明的霍普菲尔德反向传播算法(Hopfield backpropagation)和杰弗里·辛顿(Geoffrey E. Hinton,1947年—)发明的深度卷积神经元网络(Deep Convolution Neural Network)等。

2017年,Vaswani等7位谷歌公司的工程师研发出了一个叫做“Transformer”的新算法。他们的论文有个奇特的名字:“你只需要注意”《Attention is All You Need》(图4)。这个算法在深度学习模型的基础上通过“注意”来捕捉输入信息中各个部分的依赖关系。

图4,“你只需要注意”《Attention is All You Need》

算法的含义在19世纪扩展到了包含所有的计算方法。到20世纪后期,随着计算机技术的发展,算法有时也特指计算机使用的计算方法。

什么是注意?从认识论的角度来说,注意是将心智资源集中在特定的信息或任务上。

早在两千多年前,柏拉图(Plato,公元前427年—公元前347年)和亚里士多德亚里士多德(Aristotle,公元前384年—公元前322年)(参见如虚如实说|科学,是从哪里来的?)就认识到注意是思维的重要组成部分。

启蒙时代(17世纪—18世纪)的哲学家们曾经系统地探讨了注意与感知的关系,并用实验加以验证。

到了1960年代,心理学家们提出了较完整的注意模型:注意像一个过滤器,只允许特定的信息进入认知过程。例如看一幅图画时,不注意就会忽视一些细节,而专注于一些细节会导致忽略其他内容。

到了1990年代,计算机科学家们开始研究注意的算法。Transformer巧妙地利用注意力来建立深度学习神经元网络。

1 输入处理——把输入信息数字化

例如,要处理的信息是“I love cats”,处理的方法如下:

·把 "I love cats" 分为“I” “love”

“cats”;

·把每个词被转换为词的数字代码;

·把每个词的位置编码;

把词的数字代码与位置编码组合成句子的数字表达。

2 把输入信息编成注意力模型

其方法如下:

·建立自注意力(Self-Attention)模型(图5)。

☆每个词的数字代码生成三个向量:查询向量(Query,Q)、钥匙向量,简称键(Key,K)和取值向量,简称值(Value,V)。

☆计算Q和K的乘积,得到注意力的权重,再用这些权重对V进行加权求和,得到每个词的上下文相关度。例如,“love”的表示会包含与“I”和“cats”的相关信息。

图5,输入词及其相关度

·建立多头注意力(Multi head attention,MHA)模型(图6)。

☆并行计算各个词的自注意力,每一个词对应于一个“头”;

☆把所有头的输出拼接得到输出。

“I” “love” “cats” 图6,多头注意力模型(动画)

3 建模

将多头注意力模型集成到深度学习神经元网络,利用神经元网络处理更高层次的连接关系。例如“love”与“like”的关联、“cats”与“dogs”的关联,等等。

训练神经网络,得到网络模型。

Transformer有好几个优点。首先,它可以并行计算,建模速度快。其次,它可以直接捕捉到任意两个信息的关系,搜寻速度快。此外,它可以轻松地扩展到更深的网络和更大的数据集,有强大的泛化能力。开源的AI网站Hugging Face的Transformers库提供了大量预训练模型、源程序、数据和工具,极大地推动了Transformer的普及和应用。

在随后的几年中,Transformer广泛地应用在机器翻译、文本生成、文本分类、图像处理等各个领域。

Chat-GPT用的就是Transformer。我们可以问问Chat-GPT自己:

提问:Chat-GPT用什么算法?

Chat-GPT:

我的模型背后的关键算法涉及先进的机器学习技术,主要使用一种称为Transformer的神经元网络。以下是主要组件:

·标记:将文本分解成更小的单位,如单词或词组;

·嵌入:将其转换为模型可以处理的数字表示;

·注意力机制:这允许模型在进行预测时关注文本的不同部分,有助于理解上下文;

·训练:该模型在大量数据集上进行训练,使用无监督学习来预测句子中的下一个单词、词组或句子;

·微调:在初始训练之后,会按特定任务或数据集对模型进行微调,以提高性能。

让我们回到Deep Seek,它用的是什么算法?我们可以问问Deep Seek自己。不过,它不回答,只叫我们去查它的官网资料。我们可以问问Chat-GPT:

提问:DeepSeek用什么算法?

Chat-GPT:

Deep Seek是一个先进的人工智能模型,它结合了几种创新算法来提高其性能。以下是一些关键组件:

·混合专家(Mixture of Experts, MoE):该算法只激活特定任务所需的神经网络,提高效率和专业化;

·多头潜在注意(Multi-Head Latent Attention,MLA):该算法通过识别细微的关系和同时处理多个输入来增强模型处理数据的能力;

·多标记预测(Multi-Token Prediction,MTP):该算法允许模型一次预测多个标记值,从而提高复杂基准测试的性能。

·8字节(Floating Point 8,FP8)混合精度训练:该算法使用低精度与高精度混合的数字来提高训练效率,平衡了计算速度和精度。

这些算法使Deep Seek能够在各种任务中高效地实现多种功能,包括自然语言处理、编码和数学推理。

由此可见,Deep Seek的成功主要是因为它在算法上的创新。

今后还会有新的“Deep Seek”出现吗?答案是肯定的。首先,Chat-GPT与Deep Seek用的都是基于Transformers架构的注意力算法(如MHA、MoE与MLA)。这类算法还在不断地推陈出新,例如:

其次,大量投资进入AI领域。新的系统不断涌现,目前全球各地的大型AI系统已经有5百多个,国内就有300个。而且规模都在不断增大(图7)。

2020年的GPT-2模型有150亿个参数。

2024年的GPT-3 turbo有1750亿个参数。Deep Seek V3有6710亿个参数。千问(Qwen2)有720亿。埃隆·马斯克(Elon Reeve Musk,1971年—)的Grok3有12,000亿个参数。华裔美国科学家李飞飞(Fei Fei Li,1976年—)的S1模型只有320亿个参数。但这些AI系统都能各显神通。所以,AI不会是一家或数家的天下。

图7,大型AI系统的参数量,纵坐标是以10倍增加的

最后还要一提的是大型AI系统的精度大多在90%左右。以这个成绩考上名校没有问题,但要控制一个机器人风险还是太大。因此必须开发各种各样的应用软件(Agent)。

AI驱动的第四次工业革命才刚刚开始。

来源:杜如虚院士

相关推荐