摘要:中国初创企业深度求索(DeepSeek)在研发大语言模型时,绕过了英伟达CUDA框架,这为DeepSeek在未来适配中国国产芯片做好了准备。
据报道,中国初创企业深度求索(DeepSeek)在研发大语言模型时,绕过了英伟达CUDA框架,这为DeepSeek在未来适配中国国产芯片做好了准备。
CUDA可以理解为,这是英伟达给自己显卡打造的一个操作系统。
就像iPhone用iOS定义智能手机,CUDA重新定义了GPU能干什么。
以前算力上不来,是因为都用CPU进行训练,是英伟达把原本只能打游戏的显卡,变成了科学家算核爆、AI公司训练大模型的“超级算盘”。
英伟达为什么能一飞冲天,成为现在最具价值的美国科技公司?就是因为CUDA。
特斯拉用CUDA训练自动驾驶,OpenAI用它搞出ChatGPT。
目前,90%的AI论文实验基于CUDA,学术界已经在用CUDA代码当“科研货币”。
这就是黄仁勋敢说“英伟达就是AI基础设施”的底气。
而现在,DeepSeek的出现,不只是改变了AI界的游戏规则,芯片圈也受到了冲击。
英伟达起飞靠的就是CUDA
DeepSeek使用了专业模式
韩国未来资产证券在对DeepSeek技术论文进行分析时发现,DeepSeek在使用英伟达的芯片训练时,使用的是更底层的PTX语言,而非大家都在用的CUDA。
CUDA就相当于手机自带的相机APP,打开直接用就行,是一个通用的标准。
而PTX则是通过手动调整光圈、快门。
两者都能拍出不错的照片,但要想拍出最好的照片,还是得用手动模式,虽然更麻烦、更复杂,但效果也会更好。
就像赛车一样,手动挡肯定比自动挡更能发挥极限速度。
现在大家都用CUDA进行训练,由于这是一个通用的标准,并不会完全适配每一种训练模式。
而使用PTX,则可以量身定制,基于自己的训练方向、方式,采取最优的方案。
DeepSeek和英伟达
未来能兼容国产显卡
当然,使用PTX不是没有代价的。
首先,开发的难度飙升,相当于不用计算器做高数题。
其次,工作量成倍增加,因为必须精确安排每个计算单元的任务。
所以这也是为什么,几乎所有从业者都使用CUDA,虽然通用的框架会影响算力,但直接多买一些显卡就行了,不需要把每一块显卡的算力都发挥到极致。
但是DeepSeek没办法,无法获得那么多显卡,而且使用的显卡,还不是行业内最顶级的,所以只能从软件层面进行优化,调动显卡里上千个小计算单元的工作节奏,在压榨算力的同时,也能把消耗降下来。
而付出如此大的辛劳,还有一个好处,那就是未来可以兼容国产显卡。
DeepSeek
让英伟达无路可走
CUDA是英伟达的技术护城河,就像你想使用IOS系统,就必须购买IPhone一样,CUDA不收费,但你要使用CUDA,就得买英伟达的显卡。
而PTX语言相当于显卡界的“普通话”,国产GPU只需做个“方言转换器”,就能把PTX转成自己的芯片指令,类似把普通话翻译成粤语。
也就是说,可以绕过CUDA这个技术护城河,也就意味着不一定非得使用英伟达的显卡。
目前,使用PTX编译,仍然非常复杂,否则大家早就会开始使用了。
但是,由于DeepSeek的成功,这条道路将会有越来越多人走下去,慢慢地也就能发展起来了。
就像CUDA的发展一样,一开始毫无进展,黄仁勋咬牙坚持,到了AI时代才看到曙光,然后一飞冲天。
PTX同样有这样的可能性,甚至有可能成为上位替代。
就像安卓系统和IOS系统一样,当更多的厂商使用PTX、优化PTX,时间久了,也就能和CUDA掰掰手腕,甚至超过CUDA。
所以说,这才是老黄着急的根本原因,这相当于走英伟达的路,让英伟达无路可走。
来源:军事作家陈曦