摘要:春节假期一晃而过,大家都在回味与家人团聚的温馨时刻,有人长胖,有人尽享休闲。但在科技圈,一场激烈风暴正以Deepseek为中心疯狂席卷,成为中美乃至全球互联网上最热门的话题,尤其是在美国硅谷,讨论热度持续攀升。
春节假期一晃而过,大家都在回味与家人团聚的温馨时刻,有人长胖,有人尽享休闲。但在科技圈,一场激烈风暴正以Deepseek为中心疯狂席卷,成为中美乃至全球互联网上最热门的话题,尤其是在美国硅谷,讨论热度持续攀升。
Meta副总裁、首席AI科学家杨立昆直言,硅谷存在一种“错位的优越感”,同时对Deepseek的成功予以肯定,认为这是AI开源价值的胜利。
Anthropic的CEO,Dario Amodei则发表万字长文,吐槽并提议加强对华芯片出口管制,理由是Deepseek的发布意味着中国人工智能初创公司在某些方面已能以较低成本逼近美国前沿AI模型性能。
OpenAI也不甘示弱,2月4日紧急发布基于O3的deepresearch模型,并宣布O3mini正式上线供ChatGPT用户免费使用。
Deepseek能在互联网、科技界和AI技术生态中引发如此巨大的舆论热潮,产生非同凡响的虹吸效应,主要有两大原因:一是它是在世界范围内得到广泛认可的非美国模型;
二是Deepseek-R1是完全免费且采用MIT协议的开源模型。
这两个要素缺一不可,否则不会引发如此火爆的关注。正因如此,很多人担忧,质疑如此优秀的模型开源是否明智,担心其他大模型厂商会迅速学走技术,还对其未来商业模式表示忧虑。
Deepseek究竟为何选择开源?开源模型又有哪些独特优势?它这么早开源到底是不是正确选择?
不少人认为如今大语言模型的开源和过去传统软件开源类似,开发者可通过托管平台轻松获取和贡献代码,包括源代码、可执行文件、相关文档和测试用例,能自由查看、修改和重新分发源代码以实现完全控制和定制化,就像Linux开源内核源代码,开发者能据此打造不同版本的Linux发行版。
但实际上,大模型开源与传统软件开源存在本质区别,也可说是部分开源或有限度使用。大模型开源通常仅包含模型权重和推理代码部分,训练代码和完整工程细节一般不予公开。
像Meta的LLAMA系列、阿里的千问百川Falcon等主流开源模型,在huggingface Transformers上都只提供接口和推理部分代码,早期的LLAMA2甚至连预训练权重都未提供。
Deepseek同样遵循这一惯例,采用MIT协议开源了模型权重和推理部分,训练代码和完整工程细节并未完全公开。
即便在Deepseek-V3论文中透露了一些训练细节,如RL飞轮重大OOS专案预训练处理方法、英伟达H800GPU集群结合高效专家路由和复杂均衡策略等,但仍未公开完整训练代码和全部工程细节,更多是为了让研究者、开发者和生态伙伴深入了解模型训练过程和优化方法。
而R1仅开源模型权重和推理代码,部分用户可根据需求优化改进推理过程,提高效率和准确性,具体训练和工程细节则很少透露。
打个比方,大模型训练如同超大规模的美食烹饪,需要大量数据、算力和时间。闭源模型像厨师在后厨独自加工,开源模型可能会告知烹饪方式,却不会透露具体调料用量和步骤,大模型训练代码和工程细节远比这复杂,藏着大量关键技术和优化技巧。
所以即便Deepseek开源,其他大模型厂商要完全复制其技术仍难度巨大,最大成本是时间成本,毕竟AI迭代速度极快,等学会R1,深度求索可能已推出R3和V5。
那Deepseek为何要开源这么优秀的模型,而不像OpenAI闭源赚钱、收费订阅呢?
主要有三点原因。首先,技术的本质是控制,开源是手段,在当前大模型竞争阶段,用户量比模型本身更重要。AI模型的用户量和装机量不仅关乎产品市占率,更是模型发展和生态构建的关键要素。
在算力、算法、数据构成的AI大模型三角关系中,目前全球主流模型对互联网公开数据的攫取已接近饱和,未来获取非公开关键数据,如非英文、中文语系的本地数据、公共领域高质量多模态数据以及用户一手图片、视频和音频数据,对模型性能提升至关重要。
以欧洲、印度、中东为例,很多全球开发者已基于Deepseek开源模型利用本地数据进行训练和优化,这具有重大战略意义。
其次,开源的本质是标准之争。在科技领域,掌握技术标准制定权就意味着拥有市场话语权和行业主导权。以智能家居生态为例,米家因强大的Netflix社区和开源组件,能无缝接入HA并部署在本地NAS,保障稳定性和隐私性,吸引众多用户。
AI大模型生态与物联网生态类似,开源策略在吸引用户方面优势明显,能本地部署、保障数据安全、性能可靠、成本低廉,还能根据用途微调和优化场景,自然会吸引开发者和用户。
在多模态领域,Deepseek也前景广阔,许多车厂自驾团队因在数据、算力、硬件上与特斯拉、华为等存在差距,开发自家自驾系统困难重重,Deepseek开源模型为他们提供了机会,可降低研发成本和时间,其开放性和透明性还能让车厂更好保护数据。
在智能座舱、小公司AIagent、智能安防、医院AI问诊本地化部署等领域,开源模型凭借开放性和透明性,通过社区集体智慧推动技术标准形成,为模型迭代、创新和扩展提供无限可能,助力Deepseek生态落地。
最后,Deepseek能在激烈竞争中脱颖而出,源于残酷环境下的自然选择。它所用的H800GPU集群受美国限制条例影响,带宽相比H100减少50%以上,严重影响数据传输速度。
但正是这种挑战激发了团队创新动力,他们采用MOE模型和MLA等创新架构,大幅减少计算量和推理显存需求,降低对高端GPU依赖,通过FP8混合精度训练和doPIP算法优化,将训练成本大幅降低,效率达到同类模型的11倍左右。
这表明,安逸环境未必能培育出优秀产品,选择开源、接受挑战、鼓励竞争,在全球审视下用创新思路反而能锤炼出真正强者,正如达尔文进化论所揭示的道理。
至于Deepseek这么早开源是不是正确选择,目前尚无定论。全球科技公司都在学习Deepseek,未来模型之争必将更加激烈,国内竞争对手如Moonshot,Infinigence,Baichuan,Qwen等也在加速追赶。
Moe,Transformer,LLms模型未必是通往AGI的最终形态,AI仍在快速演进,开源和闭源将继续并行推进,最终商业模式难以预测。
Deepseek的成功与破圈,除技术层面,更让我们看到一种精神力量。它不是靠补贴催生,不来自大厂,未受地方政府保护,核心员工没有留学经历,不依赖西方市场,却敢于开源,展现出中国年轻人不服输的青春力量。
事实证明,人们除追求金钱,更需要理想。牛顿因苹果发现万有引力、瓦特改造蒸汽机、特斯拉发明交流电,这些改变人类历史的重大发明创造,从来不是金钱和资本堆砌的结果,更多是源于想象力、理想、对真相的探索和对进步的渴望。
在未来AI变革中,打开思想枷锁,追求真正有价值的东西,将变得愈发珍贵。
来源:贾老师说的不假