麻省理工科技评论:DeepSeek揭开AI训练新范式 为何所有人都将效仿

360影视 2025-02-04 14:10 2

摘要:《麻省理工科技评论》创刊于 1899 年,是麻省理工学院全资拥有的杂志。作为世界上最有影响力的技术杂志之一,它聚焦新兴科技,以专业视角深入剖析技术的商业化、社会及政治影响,“十大突破性技术” 评选极具影响力。其内容权威,受众广泛,涵盖多领域技术话题。

《麻省理工科技评论》创刊于 1899 年,是麻省理工学院全资拥有的杂志。作为世界上最有影响力的技术杂志之一,它聚焦新兴科技,以专业视角深入剖析技术的商业化、社会及政治影响,“十大突破性技术” 评选极具影响力。其内容权威,受众广泛,涵盖多领域技术话题。

最近《麻省理工科技评论》对DeepSeek发表了题为《How DeepSeek ripped up the AI playbook—and why everyone’s going to follow its lead》的评论文章,全文内容如下:

DeepSeek揭开AI训练新范式:为何所有人都将效仿?

这家中国公司揭开了顶级实验室训练下一代模型的方法,现在事情变得有趣了。

中国公司DeepSeek于上周发布大语言模型R1时,它在美国科技行业引起了巨大震动。不仅仅是因为R1的表现匹敌本土最强竞争对手,更因为它的训练成本只是竞品的一小部分——而且是免费开源的

受此影响,美国股市蒸发了1万亿美元特朗普总统称此为“警钟”,而整个行业的热度再次飙升。硅谷顶级投资人Marc Andreessen在X平台上发帖称:“DeepSeek R1是我见过的最令人惊叹、最令人印象深刻的突破之一——作为开源项目,这是献给世界的深远礼物。”

但DeepSeek的创新并非唯一值得关注的地方。通过公开R1及其前代模型V3的构建细节,并免费发布这些模型,DeepSeek揭示了构建推理能力强的模型比人们想象的要容易得多。该公司大幅缩小了与全球顶级AI实验室的差距。

这一消息令全球竞争对手迅速反应。本周,中国科技巨头阿里巴巴宣布推出新版Qwen大模型,美国领先的非营利AI实验室Allen Institute for AI(AI2)也发布了Tulu模型的更新版本。这两家公司均声称其最新模型超越了DeepSeek的R1。

OpenAI联合创始人兼CEO Sam Altman称R1在性价比方面“令人印象深刻”,但同时信心十足地回应:“我们显然会推出更强的模型。”随后,OpenAI发布了ChatGPT Gov,这是为美国政府机构安全需求定制的ChatGPT版本,这似乎是在回应外界对DeepSeek模型可能向中国传输数据的担忧。

DeepSeek已成为全球AI行业的焦点。那么,它究竟做了什么让整个科技世界如此震动?这股热潮是否值得?我们又能从中学到什么关于下一步AI发展的启示?

要理解DeepSeek的创新,我们首先要了解大语言模型(LLM)是如何训练的。通常,这一过程分为两大阶段预训练(pretraining)和后训练(post-training)

预训练是最重要的一步,它涉及从互联网上的大量文档(包括网页、书籍、代码库等)中学习语言模式。模型通过反复训练,从文本中学习如何生成符合语法的词汇序列,最终得到基础模型(base model)。这一阶段极其昂贵,需要消耗巨大的算力和资金。

然而,如OpenAI联合创始人Andrej Karpathy在微软Build大会上所言:“基础模型不是助手。它们只是想补全互联网文档。”换句话说,仅有基础模型是不够的,它需要进一步微调,使其能够执行具体任务。

这就涉及后训练阶段。通常,业界的做法是通过监督微调(supervised fine-tuning)和人类反馈强化学习(RLHF)来优化模型,使其学会像人类那样回答问题。例如,OpenAI采用RLHF技术,让人类测试员对模型的回答进行评分,并根据这些分数优化模型的未来回答质量。

DeepSeek的突破在于,它发现后训练阶段可以完全自动化,大幅减少人工干预。这一创新使得训练成本大幅下降,而模型性能却没有显著下降。

DeepSeek跳过了传统的人类监督微调和RLHF步骤,而是采用了一种完全自动化的强化学习方法。与传统方法不同,它不依赖人工评分,而是让计算机自己评估答案的优劣。

“减少甚至跳过人类反馈是一个重大突破。”曾担任阿里巴巴研究总监、现为以色列AI初创公司Qodo CEO的Itamar Friedman评论道,“这样一来,你几乎可以训练一个模型,而不需要任何人工标注。”

然而,这种方法也有缺陷。计算机在评估数学和代码等结构化任务的答案时表现出色,但在评估开放性问题或主观任务(如创造性写作、道德判断等)时仍然存在困难。因此,DeepSeek仍然需要人工标注部分数据,但相比西方市场,中国的人才成本更低,数学、编程和工程专业的高学历人才储备更丰富。

DeepSeek的R1模型是在基础模型V3的基础上训练的,而V3的表现已接近OpenAI的GPT-4o。DeepSeek通过多轮自动强化学习,使R1具备了更强的推理能力。

DeepSeek的训练方法与2016年Google DeepMind训练围棋AIAlphaGo的方式类似。AlphaGo通过强化学习+自我对弈,从随机走棋进化到击败世界冠军。DeepSeek采用类似方法,将模型生成的不同回答视为“棋步”,并通过强化学习逐步优化答案的逻辑性。

但早期版本的R1(称为R1-Zero)虽然表现优异,却存在答案晦涩、混合多语言等问题。为了解决这一问题,DeepSeek在强化学习过程中加入了少量人工示例,最终训练出更加流畅、可读性更强的R1模型。

此外,DeepSeek还研发了一种新的强化学习算法——GRPO(Group Relative Policy Optimization)

通常,强化学习需要一个独立的评分模型来评估AI输出的质量,但这意味着额外的计算成本。DeepSeek的GRPO方法不依赖于额外的评分模型,而是通过“近似评分”来指导训练,从而降低计算成本,同时保持优化效果。

DeepSeek并不是唯一采用此类方法的公司。微软亚洲研究院发布的rStar-Math模型、AI2的Tulu模型,以及Hugging Face的OpenR1项目,均在探索类似的强化学习优化策略。

事实上,业内普遍认为,OpenAI、Google DeepMind、Anthropic等顶级实验室早已掌握类似技术,只是没有公开

“R1的最大影响在于,它向世界展示了训练推理能力强的模型并不需要昂贵的人工标注。”Hugging Face研究员Lewis Tunstall表示。

换句话说,世界顶级公司一直在默默使用这类技术,但DeepSeek打破了行业垄断,把技术公开了

**“关键的不是训练推理模型有多难,而是训练基础模型有多难。”**微软Build大会上的Andrej Karpathy指出,“预训练占据99%的工作量和成本。”

随着推理模型的训练变得更加廉价和透明,我们可以预见更多免费的、能力更强的AI模型即将到来。小型AI公司将能快速跟进,从而削弱科技巨头的垄断地位。“这可能是一个历史性的时刻。” Friedman总结道。

4o

来源:人工智能学家

相关推荐