摘要:经济观察网 记者 钱玉娟AI世界从来不只是巨头的独角戏。来自中国、成立仅一年半的人工智能创业公司深度求索(下称“DeepSeek”),使用2048颗英伟达H800 GPU,用时短短两个月,训练出了6710亿参数的开源大模型DeepSeek-V3,直接赶超美国A
经济观察网 记者 钱玉娟 AI世界从来不只是巨头的独角戏。来自中国、成立仅一年半的人工智能创业公司深度求索(下称“DeepSeek”),使用2048颗英伟达H800 GPU,用时短短两个月,训练出了6710亿参数的开源大模型DeepSeek-V3,直接赶超美国AI巨头OpenAI投入超百倍的顶级模型GPT-4o。
“美国人在休息,中国人在奋斗。”硅谷AI数据标注独角兽企业Scale.ai的创始人Alexandr Wang感慨,DeepSeek正以更低的成本、更快的速度和更强大的战斗力实现了追赶。
不仅给沉浸于圣诞假期的硅谷AI研究者和开发者带去了震撼,这家坐落在杭州的初创公司,还激发国内不少人前来“朝圣”。
一位接近DeepSeek管理层的人士透露,过去两周,受DeepSeek-V3全球热度影响,有来自北京市、浙江省的政府官员约见DeepSeek创始人梁文锋,这些都是“推不掉的事情”;面对更多的见面邀约,梁文锋选择在“社恐”外衣下主动把自己“藏”起来。目前,各类企业提出与DeepSeek建联、交流的诉求后,DeepSeek及其母公司幻方量化的管理层基本是“隐身”处理。
采访期间,经济观察网也尝试与DeepSeek官方以及其母公司董事总经理联系,未获回复。
上述接近DeepSeek管理层的人士说,梁文锋把精力投入到模型产品的迭代中,除了潜心研发外,减少曝光还有另一重考量:要保护好DeepSeek这支年轻的技术队伍。
要知道,就在DeepSeek-V3发布第二天,小米科技创始人雷军亲自以千万年薪挖走DeepSeek罗福莉的消息便冲上热搜。
一支东方力量
从浙江大学电子工程系人工智能方向毕业后,梁文锋曾进入“不对口”的金融科技领域,从事私募基金、量化投资多年。
“他一直坚信AI会改变世界。”前述接近DeepSeek管理层的人士称,梁文锋对AGI有理想情怀,在国内处于大模型创新风口时分身入局,于2023年7月创立了DeepSeek。
模型发布即开源。在长达53页的论文中坦诚披露了模型训练的技术细节。
仅花费557.6万美元,就完成了这一多模态、推理模型的总训练,模型的训练成本是其他全球知名大模型的1/20,甚至1/100。
H800是英伟达针对中国市场特供的低配版GPU,芯片性能受限下,DeepSeek仍实现了超大规模参数的模型训练。OpenAI创始成员Karpathy在社交媒体上点评,DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。
的开源模型震动硅谷,国内相关领域人士试图挖掘这个AI创业团队的神秘班底。
2023年本科毕业的小陆曾经历6轮面试获得了DeepSeek人力资源部的入职资格,尽管后来她选择出国深造,放弃了入职,但回忆起这家初创公司的面试风格,她的感受是,从Passion(热情)出发去做一个不可能完成的任务。
小陆候选的岗位涉及招聘AI人才,她了解到,这个团队最大的特点是年轻化,且在当时就有大批清华大学、北京大学的应届生放弃去斯坦福、MIT跟着大牛导师读博的机会选择加入DeepSeek。
“只招1%的年轻天才,做99%的公司都做不到的事情。”小陆觉得,DeepSeek在组织形态上是最像OpenAI的一家中国AI公司。
但与DeepSeek-V3低成本训练一样令人惊叹的是,DeepSeek的员工规模不及OpenAI的1/5,百人出头的公司中,算子、推理框架、多模态等研发工程师以及深度学习方面的研究人员共有约70人,主要在北京分部,其余30多人在杭州总部,多为前端、产品以及商务人员。
1%的年轻天才
从DeepSeek发布的论文贡献者名单看,他们多是清华、北大、北邮、北航等高校计算机相关专业应届生、博士在读生,少部分工作经验短至两三年的技术人员,也是拥有国内教育背景的高材生。
梁文锋是DeepSeek这支年轻队伍中少有的80后,他会亲自带队研发产品,有时还会亲自写代码,与同事一起攻克AI大模型的技术难题。
在招人准则上,梁文锋与OpenAI的创始人奥特曼有相似之处,不在学历、履历上设定门槛,更看重一个人的工程能力。
人力资源部门的一位工作人员在多个平台发布招聘需求,她会在简单介绍JD(Job Descripion,职位描述)后补充这样一句:“不希望用JD限制人选在公司发展的空间。”她介绍,招募人才着重考察的是人选的素质和对大模型的热爱。
虽然脱胎于量化私募基金巨头,但DeepSeek的自我认知是一家小公司,这让它不需要像科技大厂那样,对一个创新想法反反复复推演、论证,“搞来搞去,一大帮人重复做一件事。”上述接近DeepSeek管理层的人士介绍,扁平化管理模式下的DeepSeek,所有的研究人员直接向梁文锋汇报,创始人给予研究和开发团队充分尊重,谁有好想法,尽管推进去做。
这一点也在前述人力资源工作人员处得到印证,她说,公司在资源配给方面,可以做到万卡GPU训练集群,无需申请,不限使用。
管理风格的背后,是梁文锋对寻找更多技术知音的迫切。
模型的关键开发者之一罗福莉,早在北京大学研究生阶段就在AI领域的顶级国际会议ACL(国际计算语言学协会年会)上发表了8篇论文,其中2篇是一作。截至目前,罗福莉的研究论文在谷歌学术上被引用次数已超2000次。
一位在国产模型“五虎”之一的AI企业进行产业生态研究的人士告诉记者,任何一家模型厂商都处在一个科研驱动的阶段,招聘人才必然看学术与工程开发的能力,看顶刊论文,毕竟招聘进来是要搞科研的。
在该人士看来,DeepSeek研究团队的高光标签并非本土化,而是“研究”。年轻的顶尖人才再配备万卡资源,这样的公式让DeepSeek这家创业公司走到今天甚至一鸣惊人并不令人意外,反而衬托出行业的灰暗面。
接受记者采访时,上述模型厂商的生态研究人士以某明星AI公司为例说,即便被资本捧上了天,但身处镁光灯下,很少人去看它成立至今才发布了几款模型,“目前已经有多家厂商很长时间没有发布新模型了,他们中的大多数并非真正重视研究创新这件事”。
创业公司习惯借助技术大牛加入团队来撑门面,而像DeepSeek这样的公司,仅有一部分是像罗福莉这样从母公司转岗加入DeepSeek,在扩充人才梯队时,梁文锋特别要求人力资源方面不去百度、阿里、字节等大厂挖角技术大牛。
上述接近DeepSeek管理层的人士理解这种做法,任何一家大厂的技术大牛,多会在离开时带走一些嫡系,这样一群带有大厂思维模式的人进入创业团队,难免会形成“山头”,严重时还会损害公司的创业氛围,影响产品的开发节奏。
既不靠母公司砸钱吸纳大牛,又想吸引更多热情投入研究的年轻技术人,不是一件容易的事。
于是,梁文锋走到台前接受媒体采访,对外发声有两个阶段:一是DeepSeek成立初期,他需要告诉所有人,DeepSeek的目标是聚焦AGI展开研究、探索;二是DeepSeek-V2发布时,它点燃了国内大模型价格战的导火索,时值2024年年中,梁文锋在接受36氪采访时称,DeepSeek无意成为行业鲇鱼,低价背后是希望算力普惠,以及公司的愿景仍是AGI。
上述接近DeepSeek管理层的人士告诉记者,在团队招募人才的关键期以及行业发展的转折点,梁文锋会主动出来,但他反复强调的内容都与商业化目的无关,包括梁文锋在内的管理层担忧的是,团队核心成员被竞争者持续挖角,技术创造力流失。
眼下没有商业化,也没有其他新产品发布,对手筹谋更多的就是挖人。”上述生态研究人士了解到,其公司正在通过猎头挖人。
当DeepSeek爆火后,那些出现在技术论文中的贡献者们,成为不少厂商觊觎的“生产力”。
模型厂商的异类
AI大模型在国内爆火后,行业里流行这样一个说法,中国持有高性能GPU最多的机构不是AI公司,而是幻方量化。卡多、不差钱的幻方量化,在背后支撑DeepSeek展开模型研究,路线则是坚持开源,并不急于部署商业化应用。
与不少模型厂商既要开发基础模型又要AI应用变现的逻辑不同,DeepSeek一度被视为模型厂商中的异类。
记者与多位DeepSeek内部人士交流后,发现这家AI公司有很多差异化表现:不做产品运营,也不进行广告投流,更没有在社交媒体向C端用户推出任何讲解Prompt(AI模型提示词)模板等。
上述接近管理层的人士透露,眼下DeepSeek虽然会向开发者卖低价的API,但像其他友商那样面向开发者搞各种项目,它完全没兴趣,几乎模型相关的核心研究人员都在专注于产品迭代,以及另外一个 “产品”——技术研究论文。
腾讯前高级研究员、北京大学人工智能方向博士后卢菁,近两年一直专注于对国内外知名大模型展开深度研究,将其中的技术创新点通过社交媒体平台传播给国内外的技术爱好者们。
卢菁在1月11日晚通过视频直播,就DeepSeek-V3核心技术进行第二期讲解。他提出,DeepSeek并非突然爆火,它其实承接了上一代模型版本中的很多创新,相关模型架构、算法创新经过迭代验证,震动行业也有其必然性。在他看来,DeepSeek更关键的动作是在模型工程细节上的优化,“它把已有的东西,做到极致,成本降到了最低”。
很多人是在DeepSeek-V3面世后才对这一模型背后的团队、技术核心产生巨大的好奇,实际上,DeepSeek的团队早就引起卢菁这类业内专家的默默关注,直到DeepSeek-V2以多头潜在注意力机制(MLA)架构创新,在硅谷引发震动后,这一公司才真正在AI领域出圈。
在卢菁看来,DeepSeek团队在做的是一个精细活,需要的是一线真正干活的技术工程师,去将模型推理架构、算法等细节优化,从而实现低成本训练。
低成本训练并不代表模型效果差。DeepSeek官方指出,DeepSeek-V3模型多项评测成绩超越了当前全球顶级的开源模型Llama-3,就连国外独立测评机构Artificial Analysis测试后,也感叹DeepSeek-V3已经超越了迄今为止所有开源模型。
卢菁还在模型论文中看到,DeepSeek-V3在知识类任务上表现优异,已经接近当前表现最好的闭源模型,即OpenAI发布的GPT-4o以及Anthropic公司发布的Claude-3.5-Sonnet。
陈天楚在浙江大学计算机系统结构实验室从事大模型相关研究工作,DeepSeek-V3发布后,虽然这一模型的参数超出了开源社区一般模型爱好者的选择,但他在相关测试中着重对模型的代码能力加以考察,发现DeepSeek-V3已经达到了国外先进模型的水平。
从DeepSeek官网可以看到,DeepSeek-V3模型部署的价格,与全球其他同级别的模型价格相比更为低廉。这一模型因具有性价比,而被外界赋予了DeepSeek“AI界拼多多”的称号。
模型产品看似以价格取胜,但上述接近管理层的人士强调,DeepSeek至今没有面向C端的应用开发,也未向B端企业级发展商业化,目前还是在模型探索与完善的阶段。
在年轻创造力的驱动下,更强调专注于研究。上述接近管理层的人士介绍,梁文锋已经以个人名义投资了一些未来能在的模型基础上长起来的下游AI应用企业项目。这可以理解为,梁文锋在为未来能形成一个小生态提早铺垫,慢慢布局。
来源:经济观察报