摘要:在 AI 大模型这个竞争激烈的赛道中,新模型如雨后春笋般不断涌现。然而,最近有一款模型的表现格外引人注目,它就像一匹横空出世的黑马,迅速在全球 AI 领域掀起了波澜,它就是 DeepSeek-R1。1 月 24 日,在国外备受关注的大模型排名平台 Arena
在 AI 大模型这个竞争激烈的赛道中,新模型如雨后春笋般不断涌现。然而,最近有一款模型的表现格外引人注目,它就像一匹横空出世的黑马,迅速在全球 AI 领域掀起了波澜,它就是 DeepSeek-R1。1 月 24 日,在国外备受关注的大模型排名平台 Arena 上,DeepSeek-R1 的基准测试成绩大放异彩,升至全类别大模型第三,成功跻身全球 AI 大模型的第一梯队。更令人惊叹的是,在风格控制类模型(StyleCtrl)分类中,DeepSeek-R1 与行业标杆 OpenAI 的 o1 并列第一,其竞技场得分达到 1357 分,甚至还略高于 OpenAI o1 的 1352 分 。 这一消息瞬间在全球范围内引发了广泛关注和热烈讨论,也让世界的目光再次聚焦到了中国 AI 大模型的发展上。
DeepSeek-R1 是由杭州深度求索人工智能基础技术研究有限公司推出的一款开源推理大模型 ,于今年 1 月 20 日正式发布。深度求索这家公司成立于 2023 年 7 月 17 日,由知名量化资管巨头幻方量化创立,专注于开发先进的大语言模型 (LLM) 和相关技术。背靠幻方量化,DeepSeek 拥有强大的资金与技术支持,旗下还拥有 “萤火超算” 万卡级别的算力加持,为模型的研发与训练提供了坚实的保障。
在性能方面,DeepSeek-R1 十分亮眼。它在数学、代码、自然语言推理等关键任务上,性能与 OpenAI o1 正式版不相上下 ,甚至在某些方面更胜一筹。比如在处理复杂的数学问题时,它能够凭借强大的算法和优秀的推理能力,给出清晰、准确的解题步骤和答案;在代码编写和调试任务中,能快速理解需求,生成高质量的代码,并能对代码中可能出现的问题进行精准诊断和修复;在自然语言推理方面,无论是理解语义的细微差别,还是处理复杂的逻辑关系,都能应对自如。而在成本方面,DeepSeek-R1 更是展现出了巨大的优势,其预训练费用只有 557.6 万美元,在 2048 块英伟达 H800 GPU 集群上运行 55 天即可完成,仅是 OpenAI GPT-4o 模型训练成本的不到十分之一。
DeepSeek-R1 在多个关键领域展现出了与 OpenAI o1 相媲美的性能 。在数学领域,以美国数学竞赛(AMC)中难度最高的 AIME 测试为例,DeepSeek-R1 的得分十分亮眼,其在 AIME 2024 测试中,平均 pass@1 分数从最初的 15.6% 显著提升到了 71.0% ,达到了与 OpenAI-o1-0912 相当的水平,而在采用多数投票机制后,成功率更是进一步提升到了 86.7%,甚至超过了 OpenAI-o1-0912 的表现 。这表明 DeepSeek-R1 在面对复杂数学问题时,具备强大的解题能力和推理能力,能够准确地分析问题、运用数学知识和逻辑思维得出正确答案。
在代码领域,DeepSeek-R1 在全球顶级编程竞赛(codeforCES)等测试中同样表现卓越。它能够快速理解编程任务的需求,生成高质量、高效且符合规范的代码。无论是解决复杂的算法问题,还是进行大型项目的代码架构设计,DeepSeek-R1 都能应对自如。例如,在处理一些实际的软件开发任务时,它可以根据给定的功能需求,迅速生成可运行的代码框架,并在后续的代码编写和调试过程中,准确地定位和解决问题,大大提高了开发效率。
在自然语言推理方面,DeepSeek-R1 也有着出色的表现,其水平接近人类。它能够深入理解文本中的语义、语境和逻辑关系,准确地回答各种复杂的问题,生成连贯、合理且富有逻辑的文本。比如在进行文本蕴含关系判断时,它能够细致地分析文本之间的语义关联,准确判断出一个文本是否蕴含另一个文本的意思;在进行情感分析时,能够精准地识别出文本中所表达的情感倾向,无论是积极、消极还是中性情感,都能判断得十分准确。
强化学习驱动:DeepSeek-R1 在技术上有着诸多独特之处,其中一大亮点便是其摒弃了传统的监督微调(SFT)方式,完全由强化学习驱动 。传统的监督微调需要大量的人工标注数据,通过这些标注数据来指导模型的学习,这种方式不仅耗费大量的人力、物力和时间,而且容易受到标注数据的局限性影响,使得模型的学习效果受到一定的限制。而强化学习则是让模型在与环境的交互中,通过不断地尝试和探索,根据环境反馈的奖励信号来学习最优的行为策略。在 DeepSeek-R1 的训练过程中,它采用了群组相对策略优化(GRPO)算法来降低训练成本 。该算法通过从群组分数中估算基线,避免了使用与策略模型同样大小的评估模型,从而大大提高了训练效率。在面对一个数学问题时,模型会尝试不同的解题思路和方法,根据最终答案的正确性以及解题过程的合理性等因素获得相应的奖励,通过不断地调整策略,模型逐渐学会了如何更有效地解决问题,这种方式使得模型能够自主地发展出强大的推理能力,而不是简单地依赖于预先标注的数据进行学习。混合专家架构:DeepSeek-R1 采用了混合专家(MoE)架构,这也是其重要的技术优势之一。在这种架构中,包含了路由专家和共享专家的设置。路由专家负责根据输入数据的特点,将其分配到最合适的专家模块进行处理,就像是一个智能的调度员,能够根据不同的任务需求,将任务准确地分配给最擅长处理该任务的专家。而共享专家则始终保持激活状态,负责捕获和整合不同上下文中的通用知识,这些通用知识可以为其他专家提供支持,帮助它们更好地处理各自的任务。通过这种设置,模型能够实现负载均衡,避免某些专家过度繁忙,而某些专家闲置的情况,提高了计算资源的利用效率。同时,不同专家之间的协作和知识共享,也使得模型能够更好地处理复杂的任务,提升了模型的整体性能。例如,在处理一篇包含多种领域知识的文章时,路由专家会将涉及不同领域的内容分别分配给相应的专家,如将数学相关的内容分配给擅长数学推理的专家,将语言相关的内容分配给擅长自然语言处理的专家,而共享专家则可以提供一些通用的背景知识和逻辑推理方法,帮助各个专家更好地完成任务。透明推理过程:DeepSeek-R1 还有一个显著的特点,就是它能够实时展示思考过程 。当模型在处理问题时,它会将整个推理过程清晰地呈现出来,就像一个人在解题时,会把自己的思路和步骤一步步地写下来一样。在回答一个逻辑推理问题时,它会详细地说明自己是如何分析问题的条件、运用了哪些知识和规则、经过了怎样的推理步骤才得出最终的答案。这种透明性在实际应用中具有很大的优势。对于用户来说,能够看到模型的推理过程,就可以更好地理解模型的决策依据,增加对模型输出结果的信任度。同时,对于研究人员和开发者来说,透明的推理过程有助于他们深入了解模型的行为和性能,发现模型可能存在的问题和不足,从而有针对性地进行优化和改进。此外,这种透明性也为模型的可解释性研究提供了重要的数据和依据,有助于推动人工智能技术在一些对可解释性要求较高的领域,如医疗、金融等领域的应用和发展。DeepSeek-R1 采用的 MIT 开源协议,为其在全球范围内的广泛应用和发展奠定了坚实的基础。MIT 开源协议,全称 Massachusetts Institute of Technology License,诞生于美国麻省理工学院,是最早且最宽松的开源协议之一 。其核心条款简洁明了,却蕴含着巨大的能量。它允许任何人免费使用、修改、分发 DeepSeek-R1 的代码,包括将其用于商业用途 。
这就好比为开发者们打开了一扇自由的大门,让他们能够根据自己的需求和创意,对模型进行个性化的定制和应用。在开发一款智能教育应用时,开发者可以利用 DeepSeek-R1 的代码,结合教育领域的专业知识和教学方法,开发出具有独特功能的智能辅导系统,帮助学生更好地学习数学、语言等学科知识;在医疗领域,开发者可以基于该模型开发医疗辅助诊断工具,通过对大量医疗数据的分析和处理,为医生提供更准确的诊断建议,提高医疗效率和质量。
同时,使用或分发代码时,需在软件或文档中保留原作者的版权声明和许可声明 ,这不仅是对原作者的尊重,也保障了知识产权,使得整个开源生态系统能够健康、有序地发展。
全球开发者的参与热情:DeepSeek-R1 在开源社区 Hugging Face 上的表现,充分体现了全球开发者对它的高度关注和积极参与 。其下载量迅速攀升,目前已达 10.9 万次 ,这个数字背后,是来自世界各地的开发者们对其潜力的认可和期待。这些开发者来自不同的国家、不同的文化背景,拥有不同的技术专长和应用需求。有的开发者可能是来自美国硅谷的创业团队,他们希望利用 DeepSeek-R1 开发出具有创新性的智能办公软件,提高办公效率;有的可能是来自欧洲的科研团队,他们借助该模型进行自然语言处理领域的研究,探索语言理解和生成的新方法;还有的可能是来自亚洲的小型企业,他们将 DeepSeek-R1 应用于客户服务领域,开发智能客服系统,提升客户满意度。他们纷纷下载、试用 DeepSeek-R1,并积极分享自己的使用经验和改进建议,形成了一个充满活力和创造力的开源社区。在这个社区中,开发者们相互交流、相互学习,共同推动着 DeepSeek-R1 的发展和应用。促进技术创新与发展:开源模式就像一把钥匙,打破了技术垄断的枷锁,为技术创新和发展开辟了广阔的道路。在闭源模式下,技术往往被少数大公司掌控,其他开发者难以接触到核心技术,这限制了技术的传播和创新。而 DeepSeek-R1 的开源,让全球的开发者都能够参与到模型的改进和优化中来。不同的开发者从各自的角度出发,提出各种创新的想法和解决方案,这些想法和方案相互碰撞、相互融合,加速了知识的共享和技术的创新。一个开发者可能发现了模型在处理特定领域数据时的不足,并提出了一种新的算法来改进;另一个开发者可能在模型的应用场景拓展方面有了新的思路,将其应用到了一个全新的领域。通过这种方式,DeepSeek-R1 能够不断地迭代和优化,性能得到持续提升,功能也越来越强大。这种开源模式下的创新,不仅推动了 DeepSeek-R1 自身的发展,也为整个 AI 大模型领域的技术进步提供了强大的动力,促进了 AI 技术在更多领域的应用和发展,让 AI 技术能够更好地服务于人类社会。AI 投资泡沫的警觉:DeepSeek-R1 的出现,犹如一颗投入平静湖面的石子,在 AI 投资领域掀起了层层波澜,引发了人们对 AI 投资泡沫的警觉。美股大 V “THE SHORT BEAR” 在社交媒体上直言,DeepSeek 创造了一个让 AI 巨头们感到压力的时刻,投资者必须敲响警钟 。他指出,根据红杉的分析,美国 AI 公司每年必须产生约 6000 亿美元收入来支付其 AI 硬件费用,而现在看来,这种为了保持竞争力而进行的大额资本支出冒险行为,正变得越来越无利可图。高盛全球宏观研究部的高级策略师 Allison Nathan 在《Top of Mind》报告中也提出疑问,在 AI 上的投入是否过多,而收益却太少 。科技巨头计划在未来几年在 AI 资本支出上花费 1 万亿美元,但目前几乎没有实质性的、可见的成果来证明这些投入是值得的。DeepSeek-R1 以其仅 557.6 万美元的预训练费用,展现出与高成本投入的 AI 模型相媲美的性能,这让人们开始反思,AI 投资是否真的存在过度投入的泡沫现象。对 “星际之门” 计划的挑战:美国此前宣布的 5000 亿美元 AI 基建计划 “星际之门”,旨在通过大规模的投资,推动 AI 技术的发展,巩固其在全球 AI 领域的领先地位。然而,DeepSeek-R1 的横空出世,给这一宏伟计划带来了巨大的挑战。海外知名财经博客 Zerohedge 直言,DeepSeek 的出现和其廉价的训练成本,正在对 “星际之门” 计划形成巨大的打击 。DeepSeek-R1 以极低的成本实现了高性能,这使得美国试图通过巨额资金投入来抬高 AI 竞争门槛的策略受到了质疑。原本计划依靠大规模基建来获取技术优势的美国,在面对 DeepSeek-R1 这样的低成本、高性能模型时,不得不重新审视其 AI 发展战略。这不仅影响了美国在 AI 领域的投资决策,也可能改变全球 AI 技术发展的格局,让其他国家看到了在 AI 领域突破的新路径,不再仅仅依赖大规模的资金投入,而是通过技术创新和优化,同样可以实现 AI 技术的飞跃。DeepSeek-R1 的发布与英伟达股价回调之间存在着紧密的关联,这背后反映出了深刻的行业趋势。1 月 24 日,在 DeepSeek-R1 取得优异成绩的消息传出后,英伟达股价大跌 3.12%,报 142.62 美元 / 股,创下公司在年初 CES 展产品不及预期表现后的最大跌幅 。一直以来,英伟达凭借其强大的 GPU 技术,在 AI 硬件领域占据着主导地位,AI 大模型的发展对算力的需求,使得英伟达成为了 AI 产业发展的重要受益者。然而,DeepSeek-R1 的出现改变了这一局面。它的低成本训练模式,意味着大模型对算力投入的需求可能会从训练侧向推理侧倾斜,未来对推理算力的需求将成为主要驱动力,而英伟达等硬件商的传统优势更多集中在训练侧 。
这使得英伟达的市场地位受到了挑战,投资者对其未来的市场预期产生了担忧,从而导致股价下跌。这一现象也反映出整个 AI 行业正在发生深刻的变革,硬件企业不再能仅仅依靠传统的优势来维持市场地位,必须不断创新和适应新的技术趋势,以应对来自各方的竞争。
随着 DeepSeek-R1 的爆火,质疑声也随之而来。一部分北美 AI 从业者对其预训练费用仅为不到 550 万美元表示出了强烈的怀疑 。在他们看来,开发一款如此强大的大模型,所需要的算力、数据以及人力等资源都是巨大的,这样低的训练成本简直难以想象。在 2025 年达沃斯论坛上,AI 科技初创公司 Scale AI 创始人 Alexandr Wang 在未经任何证实的情况下声称,DeepSeek 囤有五万张英伟达 H100 GPU,但因为芯片禁运并未对外公布 。
这一言论犹如一颗投入平静湖面的石子,激起了千层浪,引发了更多关于 DeepSeek 训练成本的阴谋论。有人猜测,DeepSeek 可能通过一些不为人知的手段,囤积了大量的算力资源,从而降低了训练成本;也有人怀疑,DeepSeek 公布的训练成本数据存在虚假成分,是为了吸引更多的关注和投资。这些质疑和阴谋论,虽然没有任何实质性的证据,但在一定程度上影响了人们对 DeepSeek-R1 的看法。
除了训练成本,DeepSeek-R1 的模型性能也受到了一些质疑。有 AI 行业人士怀疑,DeepSeek-R1 可能存在过度拟合基准测试的问题 。在机器学习领域,过度拟合是一个常见的问题,当模型在训练数据上表现得非常好,但在实际应用中,面对新的数据时,却表现不佳,无法准确地完成任务。这些质疑者认为,DeepSeek-R1 在 Arena 等基准测试中取得了优异的成绩,可能是因为它在训练过程中过度拟合了这些测试数据,而不是真正具备了强大的泛化能力。
“让硅谷的 AI 模型创业者相信这些数字是不现实的,许多人一年的工资都比 DeepSeek 的训练费用高。” 有人对此评论道 。在实际应用场景中,DeepSeek-R1 可能无法像在基准测试中那样表现出色,无法满足用户的实际需求。这种对模型性能的质疑,也让一些潜在的用户和投资者对 DeepSeek-R1 持观望态度。
面对这些争议与质疑,DeepSeek 也采取了一系列措施来回应。它选择了最为开放的 MIT 标准作为开源协议 ,这意味着全球的开发者都可以自由地使用、修改和分发 DeepSeek-R1 的代码,同时也可以对其训练成本和技术细节进行深入的研究和验证。通过开源,DeepSeek 展示了其对自身技术的自信,也为解决争议提供了一个有效的途径。
近期,一则来自 Meta 匿名员工的消息称,Meta 内部近日启动了一项通过 DeepSeek 开源论文复现其大模型的工作,试图挖掘其是否真的只需要极低的预训练成本 。如果 Meta 能够成功复现 DeepSeek-R1,并且验证其训练成本和性能数据的真实性,那么这些争议和质疑可能会逐渐消散;反之,如果复现过程中出现问题,或者发现数据存在虚假成分,那么 DeepSeek-R1 将面临更加严峻的挑战。
无论结果如何,这一事件都将对 AI 大模型领域产生深远的影响,它可能会改变人们对 AI 模型训练成本和性能评估的看法,也可能会促使更多的公司和研究机构加强对 AI 技术的研究和创新,推动整个行业的发展。
中国在 AI 领域的发展可谓是成果丰硕,除了 DeepSeek-R1 的亮眼表现,还有诸多方面彰显着中国 AI 的强大实力。在专利申请数量上,中国展现出了绝对的优势。根据联合国世界知识产权组织(WIPO)发布的《生成式人工智能专利态势报告》,在 2014 - 2023 十年间,中国的生成式人工智能专利申请量高达 38210 项,位居全球第一,是排名第二美国的六倍 。这一数据充分体现了中国在 AI 技术研发方面的积极投入和卓越成果,众多企业和科研机构在 AI 领域不断探索创新,大量的专利申请为中国 AI 产业的发展奠定了坚实的技术基础。
在 AI 初创公司方面,中国也涌现出了一批极具潜力的企业。成立于 2023 年 3 月的月之暗面,在短短一年内就成为了行业内的焦点。它完成了超 10 亿美元的 B 轮融资,投资方包括阿里巴巴、美团、小红书和红杉中国等知名企业和投资机构,估值达约 25 亿美金 。月之暗面推出的智能助手产品 Kimi Chat,支持输入 20 万汉字,在长文本处理技术上取得了重大突破,其技术实力和创新能力得到了市场的高度认可。还有百川智能,在自然语言处理领域表现出色,其研发的大模型在语言理解和生成任务中展现出了较高的性能。这些初创公司凭借其独特的技术优势和创新的商业模式,在 AI 市场中迅速崛起,为中国 AI 产业注入了新的活力。
DeepSeek-R1 对中国 AI 产业具有重要的标杆作用。在突破美国芯片出口管制限制方面,它展示了中国 AI 企业在困境中创新求变的能力。美国对先进算力芯片的出口限制,给中国 AI 产业的发展带来了巨大的阻碍,算力成为了制约中国 AI 发展的关键因素。然而,DeepSeek-R1 通过创新的技术路径和高效的训练方法,在有限的算力条件下,实现了与国际先进水平相媲美的性能 。这表明中国 AI 企业能够通过技术创新,降低对外部高端芯片的依赖,为中国 AI 产业在受限环境下的发展提供了新的思路和方向。
在提升中国 AI 国际影响力方面,DeepSeek-R1 也功不可没。它在国际知名的大模型排名平台 Arena 上取得了优异的成绩,与 OpenAI 的 o1 并列风格控制类第一,这一成果让世界看到了中国 AI 的实力 。它的开源模式也吸引了全球开发者的关注和参与,进一步提升了中国 AI 在国际上的知名度和影响力。越来越多的国际开发者开始关注中国 AI 的发展,与中国的 AI 企业和研究机构展开合作交流,促进了中国 AI 技术的传播和应用,使中国在全球 AI 领域的话语权不断增强。
展望未来,中国 AI 产业有着广阔的发展前景和巨大的潜力。随着技术的不断进步,AI 将在更多领域得到深入应用,为各行业的发展带来新的机遇。在医疗领域,AI 可以辅助医生进行疾病诊断、药物研发等工作,提高医疗效率和准确性;在教育领域,AI 可以实现个性化学习,根据学生的学习情况和特点,提供定制化的学习方案,提升教育质量。同时,中国丰富的数据资源、庞大的人才队伍以及不断完善的产业生态,都将为 AI 产业的发展提供有力的支持。我们有理由相信,中国 AI 将在持续创新中不断发展壮大,在全球 AI 舞台上发挥更加重要的作用,为人类社会的进步做出更大的贡献。
DeepSeek-R1 的出现,无疑是中国 AI 发展历程中的一座重要里程碑。它以卓越的性能、独特的技术和开源的理念,在全球 AI 领域留下了浓墨重彩的一笔。它的成功,不仅证明了中国 AI 企业的技术实力和创新能力,也为中国 AI 产业的发展注入了强大的信心和动力。
中国 AI 产业在近年来取得了长足的进步,从专利申请数量的领先,到众多优秀初创公司的涌现,再到 DeepSeek-R1 等具有国际竞争力的大模型的诞生,中国 AI 正逐渐在全球舞台上崭露头角。尽管目前还面临着一些质疑和挑战,如训练成本的争议、模型性能的验证等,但这些都无法阻挡中国 AI 前进的步伐。
随着技术的不断进步和应用场景的不断拓展,AI 将在未来的社会发展中扮演越来越重要的角色。我们期待中国 AI 能够在持续创新中不断突破,克服当前面临的困难和挑战,在全球 AI 领域发挥更加重要的引领作用,为推动人类社会的进步贡献更多的智慧和力量。让我们共同期待 AI 新时代的到来,见证中国 AI 创造更多的辉煌!
来源:北冥有鱼