摘要:电子发烧友网报道(文/吴子鹏)在蛇年春节期间,国产AI大模型DeepSeek爆火,频繁登上国内外的热搜榜单,成为科技界最炙手可热的新星。根据第三方统计数据,DeepSeek应用上线仅仅20天,日活用户数量就突破了2000万大关,其日活增长速度已经超过了当初爆火
电子发烧友网报道(文/吴子鹏)在蛇年春节期间,国产AI大模型DeepSeek爆火,频繁登上国内外的热搜榜单,成为科技界最炙手可热的新星。根据第三方统计数据,DeepSeek应用上线仅仅20天,日活用户数量就突破了2000万大关,其日活增长速度已经超过了当初爆火的ChatGPT。
爆火之后,发布DeepSeek的幻方量化旗下AI公司杭州深度求索人工智能(AI)基础技术研究有限公司开始招兵买马,开放了多个岗位的招聘,并且给出了丰厚的薪资报酬。同时,有业内人士指出,DeepSeek或许会接入国产GPU,对国产GPU发展有着积极的带动作用。
今年1月20日,DeepSeek正式发布DeepSeek-R1,并同步开源模型权重。据介绍,DeepSeek-R1遵循MIT License,允许用户通过蒸馏技术借助R1训练其他模型。DeepSeek-R1上线API,对用户开放思维链输出,通过设置`model='deepseek-reasoner'`即可调用。
在性能方面,DeepSeek-R1比肩OpenAI的GPT-4。这款AI大模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,DeepSeek-R1性能比肩OpenAI o1正式版。同时,由于这款模型采用的是开源策略,因此被认为具有更好的成长性。
目前DeepSeek-R1和更早之前发布的DeepSeek-V3得到了行业的广泛认可,包括京东云、百度云、华为云等云产品都已经接入DeepSeek大模型。以京东云来说,京东云已正式上线DeepSeek-R1和DeepSeek-V3模型,支持公有云在线部署、专混私有化实例部署两种模式。华为云方面,2月1日,华为云宣布经过连日攻坚,双方联合首发并上线了基于华为云昇腾云服务的DeepSeek-R1/V3推理服务。同时,英伟达平台也已经宣布上线DeepSeek,英伟达网站显示,DeepSeek-R1模型已作为NVIDIA NIM微服务预览版在英伟达面向开发者的网站上发布。根据介绍内容,英伟达认为,DeepSeek-R1模型是最先进、高效的大型语言模型,在推理、数学和编码方面表现出色。
多家分析机构认为,DeepSeek-R1和DeepSeek-V3模型的发布将加速AI应用落地。中信证券研报表示,DeepSeek火爆全球,对全球AI产业链带来强大借鉴意义,意味着AI大模型的应用将逐步走向普及,有望开启全新的Scaling Law,模型重心逐步从预训练切换到强化学习、推理阶段,助力算力需求持续增长;中航证券指出,DeepSeek在基础模型训练和推理模型训练方面均有创新,有效克服了推高模型成本的FP8训练精度不足、高质量数据匮乏等困难,极大降低了训练和推理成本;国泰君安认为,DeepSeek-R1的推出体现了开源范式下技术进步的速度,以及在AI训练、推理上成本大幅度压缩的可能,AI的广泛落地有望加速。
DeepSeek爆火之后,深度求索AI公司也进一步快速扩张。公开资料显示,DeepSeek员工数量大约为150人,属于规模较小的AI公司。作为对比,OpenAI目前约有1700名员工。为了扩张队伍,在招聘网站上,深度求索AI公司放出了一系列职位,涵盖客户端研发工程师、深度学习研发工程师、全栈开发工程师、自然语言处理算法、深度学习研究员等不同工作内容。
薪酬方面,从正式员工岗位的招聘信息看,DeepSeek对员工薪酬采取“14薪”的模式。在Deepseek挂出的职位中,大部分岗位的起薪在2万元以上,不少年薪能够达到百万元级别。以深度学习研究员岗位为例,薪资水平为50—80k*14薪,工作地点为北京,招聘要求是在校或者应届的硕士生。这意味着,若按照最高月薪8万元计算,应届生入职DeepSeek,年薪就可达到112万元。除了正式员工,DeepSeek还招聘AGI大模型-数据百晓生实习生、深度学习-AGI实习生等实习岗位,实习工资为每天500元左右。
同时,DeepSeek爆火对美国AI产业造成了巨大的冲击。此前,DeepSeek的优异表现以及不及OpenAI近1/20的算力成本令英伟达股价曾一夜暴跌17%,市值蒸发近6000亿美元,这是美股单日最大跌幅。当天,DeepSeek给美国科技股带来了重创,除了英伟达外,博通、台积电、AMD和ASML等公司均出现了不同程度的下跌。
另外,DeepSeek的强大也引起了一些国家的担忧。比如,美国国会近日提出《2025年美国人工智能能力与中国脱钩法案》。法案主要内容包括:禁止美国人在中国境内推进人工智能能力,禁止下载或使用DeepSeek,否则将被定性为犯罪,最高可判处20年监禁。随后,意大利宣布,由于缺乏有关人工智能模型DeepSeek使用个人数据的信息,该机构已经下架了DeepSeek;法国隐私监管机构国家信息与自由委员会(CNIL)表示,该机构将对中国初创公司DeepSeek进行质询;澳大利亚称,DeepSeek对政府技术构成了“不可接受的风险”,立即实施禁令是为了“保护澳大利亚的国家安全和国家利益”。
笔者也在DeepSeek平台向这款大模型提问:DeepSeek为什么会爆火?
DeepSeek给出了6条总结,分别是:
高性能与精准度:DeepSeek采用了先进的深度学习算法和大规模数据集进行训练,使其在多个应用场景中表现出色,如自然语言处理、图像识别等。其高精准度和快速响应能力赢得了用户的广泛认可。技术创新:DeepSeek在模型架构和训练方法上进行了多项创新,例如引入了更高效的神经网络结构和优化算法,这些技术突破显著提升了模型的性能和效率。强大的硬件支持:DeepSeek利用了NVIDIA的高性能GPU(如A100和H100),这些硬件提供了强大的计算能力,使得模型训练和推理过程更加高效,进一步提升了用户体验。广泛的应用场景:DeepSeek不仅在学术研究中表现出色,还在商业应用中展现了巨大的潜力。无论是智能客服、内容推荐,还是自动驾驶、医疗诊断,DeepSeek都能提供强有力的支持,满足了多样化的市场需求。开放与合作:DeepSeek团队积极与学术界和产业界合作,推动了技术的快速迭代和应用落地。同时,部分技术和工具的开放也吸引了大量开发者和研究者的参与,形成了良好的生态系统。市场推广与用户口碑:DeepSeek通过有效的市场推广策略和优质的用户体验,迅速积累了大量的用户和粉丝。用户的口碑传播进一步加速了其知名度的提升。业内人士称,虽然DeepSeek曾一度重创英伟达股价,但是其也是基于英伟达的高性能计算芯片训练而来,英伟达芯片的领先性依然是毋庸置疑的。只不过,DeepSeek改变了传统AI大模型Scaling Law的逻辑,在训练过程中提升强化学习的权重,且更加注重推理。这一改变相较于此前的预训练权重高,可能会降低英伟达芯片的影响力,这也是美国科技产业恐慌的地方。
不过,无论如何,算力芯片依然是DeepSeek的基础,这一AI大模型并不是凭空出现的,只是改变了运用算力芯片的侧重点。有业内人士爆料称,在使用英伟达H800芯片训练DeepSeek时,没有采用CUDA代码,而是从CUDA生态的中间态表示入手,用PTX代码直接编写,而后转为目标GPU架构的机器码,这和传统英伟达CUDA生态的应用是有一定差异的。
此举引发了大量的猜测。其中一种猜测是,直接使用PTX代码编写就是为了绕开CUDA生态,为接入国产GPU做准备。在相关讨论中,也有研发人员表示,直接使用PTX代码编写对GPU有很强的针对性,H100上的代码一旦转移到H800或者A100上,效果可能就会打折扣,不过这一做法确实能够更好地发挥国产GPU的性能。PTX代码被称为GPU硬件的“母语”,并不是只针对英伟达GPU,这种做法确实容易引起联想。
目前,国产计算芯片可用于AI计算的产品有摩尔线程的MTT系列,燧原科技的云燧系列,寒武纪的思元系列,天数智芯的Big Island系列,以及华为的昇腾(Ascend)系列等,这些产品都有望在DeepSeek开启的AI大模型新纪元里广泛受益。
DeepSeek的爆火是现象级的,颠覆了此前由OpenAI引领的预训练技术路线,提升了强化学习和推理的作用和权重,并在硬件的使用上独辟蹊径,将会引领全球AI产业发展的新潮流。DeepSeek的强大也展示了国内AI创新力量的强大,由于DeepSeek没有采用传统CUDA语言编程的做法,更是让人们对国产AI大模型产业的后续发展充满了无限想象。
来源:核芯产业观察