Nature重磅报道:中国如何创造人工智能模型DeepSeek并震惊世界

360影视 2025-02-02 01:53 2

摘要:中国科技初创公司 DeepSeek发布了两个大型语言模型 (LLM),震惊科技界。这两个模型的性能可与美国科技巨头开发的主导工具相媲美,但成本和计算能力却仅为后者的一小部分。

DeepSeek-R1 大型语言模型在某些任务上的执行水平可与聊天机器人 ChatGPT 的开发商 OpenAI 制作的模型相媲美。图片来源:Nicolas Tucat/AFP via Getty

中国科技初创公司 DeepSeek发布了两个大型语言模型 (LLM),震惊科技界。这两个模型的性能可与美国科技巨头开发的主导工具相媲美,但成本和计算能力却仅为后者的一小部分。

科学家们纷纷涌向 DeepSeek:他们如何使用这一轰动一时的 AI 模型

1 月 20 日,这家总部位于杭州的公司发布了 DeepSeek-R1,这是一种部分开源的“推理”模型,可以以与OpenAI 最先进的 LLM o1 类似的标准解决一些科学问题, OpenAI 总部位于加利福尼亚州旧金山,于去年年底推出了 o1。本周早些时候,DeepSeek 推出了另一个模型,名为 Janus-Pro-7B,它可以根据文本提示生成图像,就像 OpenAI 的 DALL-E 3 和 Stable Diffusion(由伦敦的 Stability AI 制造)一样。

如果说 DeepSeek-R1 的表现让中国以外的许多人感到惊讶,那么国内的研究人员则表示,这家初创企业的成功是意料之中的,并且符合政府成为人工智能(AI)全球领导者的雄心。

中国科学院计算技术研究所从事人工智能芯片研究的计算机科学家陈云霁表示,鉴于开发法学硕士课程的公司获得了巨额风险投资,而且许多人拥有包括人工智能在内的科学、技术、工程或数学领域的博士学位,因此在中国出现像 DeepSeek 这样的公司是不可避免的。“如果没有 DeepSeek,也会有其他中国法学硕士可以做出伟大的事情。”

事实上,确实有。1 月 29 日,科技巨头阿里巴巴发布了迄今为止最先进的法学硕士 Qwen2.5-Max,该公司称其表现优于 DeepSeek 的 V3,后者是该公司 12 月发布的另一款法学硕士。上周,Moonshot AI 和字节跳动发布了新的推理模型 Kimi 1.5 和 1.5-pro,两家公司声称这些模型在某些基准测试中的表现可以超越 o1。

2017年,中国政府宣布,到2030年,中国将在人工智能领域成为世界领先者。中国政府要求人工智能行业在2025年之前实现重大突破,“使技术和应用达到世界领先水平”。

培养“人工智能人才”成为当务之急。根据华盛顿特区乔治城大学安全与新兴技术中心(CSET) 的一份报告,到 2022 年,中国教育部已批准 440 所大学开设人工智能专业本科学位。根据伊利诺伊州芝加哥智库 MacroPolo 的数据,当年,中国提供了近一半的世界顶尖人工智能研究人员,而美国仅占 18%。

澳大利亚悉尼科技大学专注于中国创新的科学政策研究员 Marina Zhang 表示,DeepSeek 可能受益于政府对人工智能教育和人才培养的投资,包括大量奖学金、研究补助金以及学术界和产业界之间的合作伙伴关系。她补充说,例如,由北京科技公司百度领导的国家深度学习技术及应用工程实验室等政府支持的举措已经培训了数千名人工智能专家。

虽然很难找到 DeepSeek 员工的具体数字,但公司创始人梁文峰告诉中国媒体,该公司招募了来自中国一流大学的研究生和博士生。张说,公司领导团队的一些成员年龄不到 35 岁,他们见证了中国崛起为科技超级大国。“他们深受自主创新的动力所激励。”

39 岁的文峰本人也是一名年轻的企业家,毕业于杭州一流学府浙江大学计算机科学专业。近十年前,他与他人共同创立了对冲基金 High-Flyer,并于 2023 年创立了 DeepSeek。

中国人工智能技术与应用研究中心 (CSET) 研究中国人工智能人才的雅各布·菲尔德戈伊斯 (Jacob Feldgoise) 表示,国家出台的促进人工智能模型开发生态系统的政策,将有助于 DeepSeek 等公司吸引资金和人才。

然而,尽管大学里的人工智能课程越来越多,但费尔德戈伊斯表示,目前尚不清楚有多少学生毕业时获得了专门的人工智能学位,以及他们是否被教授了公司所需的技能。他说,近年来,中国人工智能公司抱怨说,“这些项目的毕业生没有达到他们所希望的质量”,这导致一些公司与大学合作。

科学家表示,DeepSeek 成功最令人印象深刻的因素或许是,它在美国政府实施出口管制的背景下开发出了 DeepSeek-R1 和 Janus-Pro-7B,自 2022 年以来,美国政府的出口管制阻止了中国获取先进的人工智能计算芯片。

张说,DeepSeek 的领导层体现了独特的中国创新方式,强调在约束条件下提高效率。不过,她补充说,该公司尚未透露其使用硬件数量的具体细节。

DeepSeek 表示,它使用了美国芯片制造商 Nvidia 制造的约 2,000 块 H800 芯片来训练 DeepSeek-V3,这是它于 12 月1 日发布的模型,在基准测试中,该模型的表现优于 OpenAI 去年 5 月推出的 LLM GPT-4o。相比之下,加州门洛帕克 Meta 于 7 月发布的一款复杂的 LLM Llama 3.1 405B 依赖于超过 16,000 块更先进的 H100 Nvidia 芯片。High-Flyer 在 2022 年社交媒体平台微信上的一篇帖子中表示,它拥有 10,000 块 Nvidia 的旧款 A100 芯片,DeepSeek 可能可以使用这些芯片。DeepSeek 使用性能较低的芯片可能使其模型的构建成本更低。“我们面临的问题从来都不是钱,而是对高端芯片的禁令,”文峰在 2024 年 7 月告诉中国媒体。

DeepSeek 利用各种方法来提高其模型的效率。例如,它部署了一种“混合专家”架构,这是一种机器学习方法,可以比传统技术更快地训练模型,并且参数更少。悉尼大学计算机科学家 Chang Xu 表示,这使该公司能够用更少的芯片训练模型。它还使用了另一种技术的创新版本,称为多头潜在注意力,这使模型能够用更少的内存存储更多数据。

本周,媒体报道称,OpenAI 正在审查有关 DeepSeek 使用 OpenAI 模型输出训练其模型的指控。(OpenAI 被新闻机构起诉侵犯知识产权)。DeepSeek 尚未对这些指控作出回应。瑞士伯尔尼开放科学平台 Hugging Face 的研究员 Lewis Tunstall 表示,即使这是真的,这也“绝不会削弱”DeepSeek 在创建 R1 方面的成就。他说,他们的进步在于使用一种学习方法将“推理”能力灌输给法学硕士,实验已经重现了这一点。Hugging Face 正在领导一个项目,试图从头开始重新创建 R1。“我预计我们会很快知道是否真的需要来自 OpenAI 的合成数据,”他说。

香港大学专注于创新的科学政策研究员王彦博表示,DeepSeek 的成就可以为那些有人工智能野心但缺乏资金和硬件来使用标准硅谷方法培训大量法学硕士的国家提供蓝图。“这可能会催生出一大批新模型,”他说。

来源:人工智能学家

相关推荐