DeepSeek 成功证明:动力是 AI 创新的关键

360影视 动漫周边 2025-04-29 21:47 1

摘要:2025 年 1 月震撼了 AI 领域。看似势不可挡的 OpenAI 以及实力雄厚的美国科技巨头,都被我们可以称之为大语言模型( LLM )领域的“黑马”所震惊。DeepSeek 是一家中国公司,以前鲜为人知,却突然向 OpenAI 发起了挑战。实际上,Dee

2025 年 1 月震撼了 AI 领域。看似势不可挡的 OpenAI 以及实力雄厚的美国科技巨头,都被我们可以称之为大语言模型( LLM )领域的“黑马”所震惊。DeepSeek 是一家中国公司,以前鲜为人知,却突然向 OpenAI 发起了挑战。实际上,DeepSeek-R1 在基准测试上虽然略逊于美国巨头的顶级模型,但它让大家顿时开始关注硬件和能耗使用方面的效率问题。

由于无法获得最先进的高端硬件,DeepSeek 显然在效率创新上有着更大的动力,而这恰恰是大公司较少关注的领域。OpenAI 声称他们有证据显示 DeepSeek 可能使用了他们的模型进行训练,但目前没有具体证据证明这一点。所以,无论这一说法是否属实,还是 OpenAI 仅仅为了安抚投资者而为之,都存在争议。不过,DeepSeek 已经发布了他们的工作成果,而且人们已经验证了这些结果至少在较小规模上的可复现性。

那么,DeepSeek 怎么能取得如此巨大的成本节省,而美国公司却无法做到呢?答案很简单:他们拥有更强的动力。要详细说来,则需要一点技术背景的解释。

DeepSeek 使用了 KV-cache 优化

对 GPU 内存的一项重要成本节省措施是对大语言模型中每个注意力层使用的 Key-Value 缓存( KV cache )进行优化。

大语言模型由 Transformer 块组成,每个块包括一个注意力层和一个常规的前馈网络。前馈网络从概念上模拟任意关系,但实际上,它难以始终准确地捕捉数据中的模式。注意力层则解决了语言建模中的这一问题。

模型使用 token 来处理文本,为了简单起见,我们这里称之为“单词”。在大语言模型中,每个单词都会被分配一个高维度向量( 比如说, 一千个维度 );从概念上讲,每个维度代表一种概念,比如热或冷、绿色、柔软、名词等。一个单词的向量表示即代表了它的含义及各个维度上的数值。

然而,我们的语言允许其他单词来修饰一个单词的含义。举例来说,“苹果”本身有一定含义,但我们可以有一个“绿色苹果”作为修饰后的版本。更极端的情况是,在 iPhone 上下文中的“苹果”与草地情境中的“苹果”有所不同。那么,如何让系统根据其他单词来修正一个单词的向量含义呢?这正是注意力机制发挥作用的地方。

注意力模型给每个单词分配了另外两个向量:一个是 key,另一个是 query。query 表示单词中可被修正的含义特质,而 key 则代表它能为其他单词提供何种修正。例如,单词“绿色”可以提供关于颜色和绿色度的信息,所以“绿色”的 key 在“绿色度”这一维度上会有一个较高的数值;另一方面,“苹果”可能是绿色或不是,因此“苹果”的 query 向量在绿色度这一维度上也会有较高数值。如果我们将“绿色”的 key 与“苹果”的 query 计算点积,其结果应该会相对较大,而“桌子”的 key 与“苹果”的 query 点积则不会这么高。然后,注意力层会将“绿色”这一单词的少量数值加到“苹果”这一单词的数值上,从而使“苹果”的数值被修正得稍微偏绿。

在大语言模型生成文本时,是逐个单词依次生成的。当生成下一个单词时,之前生成的所有单词都会成为上下文的一部分,但这些单词的 keys 和 values 已经被计算好了。当新的单词添加到上下文中时,就需要根据它的 query 以及所有之前单词的 keys 和 values 更新其数值,这也是为何所有这些数值都存储在 GPU 内存中,这就是 KV cache 。

DeepSeek 发现单词的 key 与 value 之间存在关联性,所以“绿色”这一单词的含义和它影响绿色程度的能力显然密切相关。因此,可以将两者压缩为一个(可能更小的)向量,并在处理过程中轻松解压。DeepSeek 发现这虽然会对基准测试的结果造成影响,但却节省了大量 GPU 内存。

DeepSeek 应用了 MoE

神经网络的本质在于对于每个 query,整个网络都需要被评估(或计算)。然而,并非所有的计算都是有用的。网络中的权重或参数中蕴藏着对世界的知识,但关于埃菲尔铁塔的知识并不能用来回答有关南美部落历史的问题;同样,知道“苹果是一种水果”在回答关于广义相对论的问题时也毫无用处。然而,无论这些信息是否有用,在计算网络时,所有部分都会被处理,这在文本生成过程中会产生巨大的计算成本,而这些成本本应被避免。这就引出了专家混合模型( MoE )的概念。

在 MoE 模型中,神经网络被划分为多个较小的子网络,称为专家。需要注意的是,这里的“专家”并非预先明确定义的主题专家;网络会在训练过程中自行发现这些分工。不过,网络会给每个 query 分配一个相关性分数,并只激活匹配分数较高的部分,这大大节省了计算成本。虽然某些问题确实需要多个领域的专业知识来得到良好回答,从而可能导致这类 query 的性能下降,但由于这些领域都是从数据中自动识别,此类情况非常少见。

强化学习的重要性

大语言模型被训练为通过链式思考模型来思考,其微调目标在于模仿思考过程后再给出答案。模型被要求将它的思考过程(在生成答案之前先生成思考过程)用语言表达出来,之后系统会对思考过程和最终答案进行评估,并通过强化学习(正确匹配奖励,错误匹配惩罚)进行训练。

这需要使用包含思考 token 的昂贵训练数据。DeepSeek 仅要求系统在标签 和 之间生成思考内容,并在标签 和 之间生成答案。模型仅仅依据形式(标签的使用)和答案的匹配情况来获得奖励或惩罚,从而大大降低了训练数据的成本。在 RL 初期,模型尝试生成的思考内容非常少,导致答案错误。最终,模型学会了生成既长又连贯的思考过程,这就是 DeepSeek 所称的“顿悟”时刻。从那以后,答案的质量显著提升。

DeepSeek 还采用了其他一些优化技巧,不过这些内容过于技术性,此处不再详述。

对 DeepSeek 及更大市场的最终思考

在任何技术研究中,我们首先需要探索可能,然后再去提高效率,这是一种自然的进程。DeepSeek 对大语言模型领域的贡献是惊人的,无论其训练是否使用了 OpenAI 的输出,其学术贡献都不容忽视,同时也可能改变初创企业的运营方式。但这并不意味着 OpenAI 或其他美国巨头就必须陷入绝望,这正是研究的运作方式——一组人的研究成果会惠及另一组人。DeepSeek 当然也得益于 Google、OpenAI 以及众多其他研究者早期的研究成果。

然而,如今认为 OpenAI 将无限期垄断大语言模型领域的观点已不太可能成立。无论多少监管游说或相互指责,都无法维持其垄断局面。技术已经掌握在众多手中,并且公开透明,使得技术的进步不可阻挡。虽然这对 OpenAI 的投资者来说可能有些头疼,但对我们大家来说,这无疑是一场胜利。未来属于众人,我们永远感激 Google、OpenAI 等早期贡献者。

来源:至顶网一点号

相关推荐