藏锋五百天,一跃起惊澜——DeepSeek“搅局”大模型

360影视 2025-01-27 01:42 2

摘要:AI是一个烧钱的游戏吗?当然是,OpenAI训练GPT-4花费超7800万美元,Meta训练Llama 3超过1亿美元,Gemini Ultra差不多2个亿。没钱玩儿什么AI,仿佛已经成为了一个全球性的共识。

AI是一个烧钱的游戏吗?当然是,OpenAI训练GPT-4花费超7800万美元,Meta训练Llama 3超过1亿美元,Gemini Ultra差不多2个亿。没钱玩儿什么AI,仿佛已经成为了一个全球性的共识。

2024年7月,Anthropic首席执行官Dario Amodei在In Good Company播客节目中透露,他们正在开发的大模型训练成本更是高达10亿美元,并且预计三年内这个数字会上升到100亿甚至1000亿美元。

但是,仅仅半年之后,一个挑战者,一条鲶鱼,一个搅局者——DeepSeek便硬生生的闯了进来。

12月26日,DeepSeek-V3正式发布,在知名的聊天机器人竞技场中总排名第七,同时也是唯一闯入前十的开源模型 。在Composio的比较中,DeepSeek-V3推理方面与Claude 3.5 Sonnet、GPT-4o平分秋色;数学能力上表现完胜;编程能力则非常接近GPT-4o。而更为气人的是,DeepSeek-V3不仅仅采用了开源模式,其训练成本更是惊人的558万美元!一个硅谷顶级工程师的工资都不止这点。

这条鲶鱼的折腾还没结束,2025年1月20日,DeepSeek-R1正式发布。大模型竞技场的综合榜单上,DeepSeek-R1强势冲入排行榜前三,ChatGPT-o1并列,而且在Hard Prompts、编程和数学能力等领域,DeepSeek-R1均排名第一。在衡量模型编程开发能力的WebDev分榜上,DeepSeek-R1位列第二,与闭源的Claude 3.5 Sonnet相差不到40分。

大模型的搅局者,真的来了。

家底厚,敢放手,出奇招

作为一家2023年7月刚刚创立的初创公司,怎么看也不像是有什么家底的样子。但是DeepSeek却是大厂外唯一一家储备万张A100芯片的公司,其创始人梁文锋就是最大的保障。

梁文锋17岁考入浙大电子信息工程专业,在大模型还不为人熟知时,便通过自学成为“建模达人”。本科毕业后,他继续在浙大信息与通信工程专业攻读研究生,主攻机器视觉研究。仅用一年就掌握书本知识,并带领同学参与实践,组建AI实践团队,在实践中积累了丰富的技术经验和团队协作经验,为日后的创业和大模型研发打下了坚实的技术基础。

而在毕业后,梁文锋又另辟蹊径,凭借自己的炒股天赋成为学生中的“股神”。2015年,中证500股指期货上市,他敏锐地抓住机遇,将AI知识与全自动量化交易相结合,创立雅克比投资,后又成立幻方科技进军阳光私募领域,进而成立幻方量化。2016年,幻方量化推出第一个大模型用于计算交易仓位,年底管理基金规模约10亿元。

基于这些积累,抱着打造“一个效率奇高、由众多前所未有的设计组合生成的超级工程”的目标,梁文锋于2023年7月,与一群年轻人共同创立了DeepSeek。包括此前名震一时的天才AI少女罗福莉在内,DeepSeek的团队大多数都是刚毕业,或者博士在读的学生。梁文锋选人的标准一直都是热爱和好奇心,这些人对做研究的渴望要远超对钱的在意。同时,因为DeepSeek在做的是最难的事,这对顶级人才的吸引是最大的,而事实上在国内顶级人才是被低估的,因为为整个社会层面的硬核创新太少,使得他们没有机会被识别出来。

在DeepSeek,每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣即可。在梁文锋看来,国内创新缺的不是资本,而是缺乏信心以及不知道怎么组织高密度的人才,DeepSeek没有海外回来的人,世界前50的顶尖人才可能不在中国,但也许我们可以自己打造这样的人。

DeepSeek在技术上的策略从来不是什么大力出奇迹,而是在工程方面通过优化架构和创新算法,减少对高性能硬件的依赖。比如其在多头潜在注意力机制(MLA)方面将传统的多头注意力机制进行了改造,将过往海量的信息进行高度精炼和浓缩,但有价值的关键信息不会受损,因此可以大幅度降低对内存和计算资源的需求,显存占用降到了过去最常用的MHA架构的5%-13%;其自主研发的DeepSeekMoE也是类似的思路,将模型中的“计算任务”分配给多个专家模块,每次只激活少数相关的专家,减少计算冗余,进一步降低训练成本。

DeepSeek的成功绝非偶然。在公司运作上厚积薄发,提前布局储备大量高性能芯片;在组织架构上保持完全的自下而上,放手一搏让人才专注技术创新和攻克难题的热情;在技术研究上,找到当前真正的痛点然后大胆出奇,打造真正惊艳世界的优秀产品。

在2023年大模型惊艳世界以后,每个人都知道这会是未来,但似乎普通人都看不到未来。因为大模型实在是太烧钱了,如文章开头所言,大模型几乎变成了巨头们的修罗场。大家比拼的似乎不是用户们需要的是什么,而是谁在大模型领域更能砸钱。

但是DeepSeek相继推出的V3和R1两个模型,仿佛一条鲶鱼冲进了大模型的市场里。

12月26日推出的混合专家(MoE)语言模型DeepSeek-V3,其整体参数规模达到671B,其中每个token激活的参数量为37B。DeepSeek-V3在多项评测中表现出色,尤其是在与GPT-4o和Claude-3.5-Sonnet的对比中,均展现出不俗的竞争力。当然,更震惊的是其仅为558万美元的训练成本,直接搅浑了大模型训练的一池清水,

1月20日发布的高性能AI推理模型DeepSeek-R1,其性能可以直接对标OpenAI的o1正式版。DeepSeek-R1在后训练阶段大规模应用了强化学习技术,无需依赖大量监督微调(SFT)数据,即可显著提升模型的推理能力。这一创新方法不仅降低了训练成本,还使模型在复杂任务中表现出色。DeepSeek-R1在多个任务上表现出了与OpenAIo1相当的水平,更可怕的是,它将API调用成本降低了90-95%。

你们要卷芯片储备量?你们要卷谁更能砸钱?没钱的小厂商玩儿不了大模型?何必呢,我们直接把价钱打下来不就行了!有业内的朋友说,以往每个月要付给Claude大约2万美金,但是换成DeepSeek只要1000美金就可以解决,而且效果差距也不大。

很快,DeepSeek引发了全球的关注,一位名为AnanayArora的软件工程师更是本着看热闹不嫌事大的美好品质,成功购得了域名“OGOpenAI.com”,并将其指向了DeepSeek。Arora曾说之所以这样做是因为Perplexity的首席执行官Aravind Srinivas在X平台上曾发表的一条推文,推文中将DeepSeek与早期的OpenAI进行了比较。而Arora认为既然要比那就让大家都进行比较,因此将OGOpenAI.com域名重定向至DeepSeek,也就成功引发了全球大量用户的关注,而在各方面的对比之下,DeepSeek不仅价格优势明显,性能上也完全不输OpenAI。

吴恩达对DeepSeek的评价也非常之高。2025年1月的达沃斯论坛上,吴恩达表示:“我对DeepSeek的进展印象深刻。我认为他们能够以非常经济的方式训练模型。他们最新发布的推理模型(DeepSeek-R1),非常出色。我很欣赏世界各地的许多团队包括DeepSeek,为开源权重模型所做的贡献。所以,我觉得DeepSeek的进步是非常令人鼓舞的。”

价格轰炸是DeepSeek最可怕的一面吗?显然不是的,图灵奖得主、深度学习三巨头之一的杨立昆(YannLeCun)发布的社交媒体称,一些人看到DeepSeek的表现后认为“中国在人工智能领域超越了美国”,但这种观点是一种错误的解读。正确的理解应该是“开源模型正在超越专有模型”。DeepSeek得益于开放研究和开源成果,比如PyTorch以及Meta的Llama等,DeepSeek本质上来看是在他人成果的基础上提出新想法。DeepSeek的工作公开且开源,人人都能从中受益,这正是开放研究和开源的力量。

开源模式的优势在于它能够促进技术创新、加速软件开发、减少开发成本,并形成社区支持。DeepSeek的成功正是开源模式优势的体现。通过利用开源工具和社区合作,DeepSeek能够在较低成本下实现高性能的AI模型开发。此外,DeepSeek-R1的开源策略推动了社区研究和应用,开放模型权重及蒸馏后的1.5B-70B系列,这不仅降低了训练成本,还使模型在复杂任务中表现出色。

开源模式还鼓励全球开发者贡献代码,这种模式下,技术的创新不再受限于单一公司或团队的资源和知识,而是依赖于广泛的技术社区。DeepSeek-R1的开源策略验证了纯RL驱动的推理能力可迁移至小模型,这一发现不仅挑战了传统AI训练的固有模式,也为未来的模型开发提供了新的思路。因此,DeepSeek的成功不仅是技术上的突破,更是开源模式成功的体现,展示了开源在推动技术创新和降低成本方面的潜力。

从DeepSeek的角度来看,梁文锋本就是开源的坚定支持者,他一直认为一个强大的技术生态会更加重要。在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。DeepSeek把价值沉淀在团队上,团队在这个过程中得到成长,积累很多know-how形成可以创新的组织和文化,从而形成新的护城河。

不难发现,DeepSeek的成功不仅是技术上的突破,更是开源模式的成功。通过利用开源资源、推动社区协作、降低研发成本和提高技术透明度,DeepSeek展示了开源在推动技术创新和降低成本方面的潜力。这种模式不仅对DeepSeek有益,也对整个AI领域的发展具有重要意义。

来源:有趣的科技君

相关推荐