中国的平价开源AI模型DeepSeek惊艳全球科学家

360影视 2025-01-31 11:02 2

摘要:日前,来自中国的大语言模型DeepSeek-R1震动了整个科学圈,对于OpenAI的o1一类的“推理”模型来说,这个负担得起的开源模型成了它们的竞争对手。

DeepSeek-R1在推理任务中的表现媲美OpenAI的o1——而且开放给研究人员研究。

中国公司DeepSeek(深度求索)去年首次推出一款大语言模型。来源:Koshiro K/Alamy

日前, 来自中国的大语言模型DeepSeek-R1震动了整个科学圈 ,对于OpenAI的o1一类的“推理”模型来说,这个负担得起的开源模型成了它们的竞争对手。

这类模型能以类似人类推理的过程生成逐步式回答。这使得这些模型比之前的语言模型更擅长解决科学问题,并有望在科研中发挥作用。 1月20日发布的对R1的初步测试显示,其在特定化学、数学和代码任务上的表现与o1不相上下 ,OpenAI去年9月发布的o1曾令科研人员赞叹不已。

“这太疯狂了,完全出乎意料,”英国AI咨询公司DAIR.AI的联合创始人、AI研究员Elvis Saravia 在X上写道。

R1令人赞叹的原因还有一个。 构建该模型的DeepSeek (深度求索) 是杭州的一家初创公司,该公司以“open-weight”的形式发布了该模型,open-weight允许科研人员研究并继续构建这个算法。 这个模型使用MIT许可证,能免费重复使用,但不属于完全开源,因为其训练数据并未公开。

DeepSeek的开源很了不起 ,”德国马克斯·普朗克光学研究所Artificial Scientist Lab负责人Mario Krenn称赞道。相比之下,他说,旧金山的OpenAI构建的o1等模型,包括其最新的o3,“基本上都是黑箱”。

DeepSeek还没有公布训练R1的总成本,但使用其界面的用户只需支付使用o1 的1/30。 这家公司还创建了R1的“蒸馏”迷你模型,让算力有限的研究人员也能上手。“ 在o1上要花300多英镑的一个实验,用R1只要不到10美元, ”Krenn说,“这种巨大差异肯定会影响模型的未来采用。”

挑战模型

R1是中国大语言模型 (LLM) 崛起的一个缩影。 DeepSeek脱胎于一家对冲基金公司,上个月横空出世发布了名为V3的对话机器人——该机器人虽然预算不高,但成功打败了几大主要对手。专家估计,它大概花了600万美元租借训练模型的硬件,而Meta的Llama 3.1 405B至少花了6000万美元,使用的计算资源为前者的11倍。

关于DeepSeek的热议还包括:R1诞生于美国对中国公司的出口管制之下——美国禁止中国获得当前最好的AI处理计算芯片。 “R1来自中国的事实表明,有效利用现有资源比只关注计算规模更重要。” 西雅图的AI研究员François Chollet说道。

DeepSeek的进展说明,“大家以为的美国领先优势已经大大缩小, ”华盛顿的技术专家、台湾沉浸式科技公司宏达电 (HTC) 的Alvin Wang Graylin在X上写道, “中美两国应该联手打造先进AI,而不是继续没有赢家的装备竞赛。”

大语言模型的训练需要使用数以十亿计的文本,将它们拆分成字词单元的 “token”,并学习数据中的模式。 这些关联让大语言模型能预测一句话中接下来会出现的token。但大语言模型很容易发明事实,这种现象被称为“幻觉” (hallucination) ,而且往往难以对问题进行推理。

和o1一样,R1使用“思维链”方法提升大语言模型解决更复杂任务的能力,包括有时能回溯和评估其方法。DeepSeek利用强化学习通过“微调”V3构建了R1——即在模型获得正确答案并概述其解决问题的“思考”方式时进行奖励。

算力有限迫使该公司只能“在算法上创新” ,英国爱丁堡大学的AI研究员Wenda Li说。在强化学习中,该团队估算该模型在每个阶段的进度,而不是用另外的网络估算。这有助于降低训练和运行成本,英国剑桥大学计算机科学家Mateja Jamnik说。该团队还使用了一种“混合专家” (mixture-of-experts) 架构,能让模型只激活与每个任务有关的部分。

根据与模型同时发布的一篇技术论文,在基准测试中, DeepSeek的R1在加州大学伯克利分校的研究人员创建的MATH-500数学问题集中的得分为97.3%,在Codeforces比赛中打败了96.3%的人类对手。 这些成绩与o1持平;o3并未纳入此次比较 (见“AI劲敌”) 。

目前很难断言基准是否体现了模型的真实推理或泛化能力,还是只是反映了模型能通过这类测试。不过,基于R1是开源的,研究人员能看到它的思维链,剑桥大学计算机科学家Marco Dos Santos说,“这能让大家更好地理解该模型的推理过程。”

眼下,已经有科学家在测试R1的能力了。Krenn让这两个对手模型根据有趣程度来筛选3000个科研思路,并将结果与人类的打分进行比较。在这个标准下,R1的表现略逊于o1。 但R1在特定量子光学计算中击败了o1,Krenn说,“这真的很厉害。”

来源:东窗史谈

相关推荐