摘要:这个talk是一周前Deepseek发布r1版本之后才临时加进来的,主讲人甚至在开讲前俩小时还在做PPT,足以见得主办方对此很重视,人满为患也说明听众对此很感兴趣。
这几天我在Berkeley参加一个LLM的研讨会,就谈谈我的见闻吧
一、Deepseek引起的轰动是现象级的。
第一天到场的人并不多,但这个讲Deepseek的会场人满为患。
这个talk是一周前Deepseek发布r1版本之后才临时加进来的,主讲人甚至在开讲前俩小时还在做PPT,足以见得主办方对此很重视,人满为患也说明听众对此很感兴趣。
主讲人说他和他爸平时从来不会聊大模型相关的东西,即便他自己就是做大模型的。他也不觉得他爸平时会关注这方面的科研进展。一个七十岁的退休老头平时也就看看球钓钓鱼,但前几天突然发消息问他Deepseek到底怎么样,而且对此非常感兴趣。这足以证明Deepseek这次有多么火出圈了。
二、当我们谈论Deepseek时,我们在谈论什么
Deepseek火出圈的主要原因是便宜,六百万刀干了别人几亿投资的事,而且没有用最新的GPU,属于是手搓澡盆横渡英吉利海峡了。
注意这个六百万其实是来自于Deepseek-V3的技术报告,其早在去年十二月就发布了,但并没有掀起多大的波澜。很多人总是把V3和R1混为一谈,V3是很厉害,用了很少的成本训练出了相当不错的模型,但其性能还远远达不到OpenAI系大模型的水平。但R1通过新的reward机制GRPO (group relative policy optimization),并使用规则类验证机制自动对输出进行打分,以V3为基础模型,一个多月时间里调教出了性能堪比4o, o1的模型,成果是非常亮眼的。
很多人没有看技术报告就张口蒸馏,闭口用了gpt的输出训练,让人蛮无语的。Deepseek在理论,网络架构和实现工程上均有不小的创新。就比如说V3叠了61个MoE (mix of expert 混合专家) block,虽然总参数量很大,但每次训练或推理时只激活了极小一部分链路,使得训练成本大大降低,推理速度也显著提高。
此外,Deepseek最大的技术亮点是采用了混合精度框架,即在不同的区块里使用不同的精度来存储数据。众所周知精度越高内存占用越大,运算起来复杂度也越大。Deepseek在一些不需要很高精度的模块,使用很低的精度FP8储存数据,极大的降低了训练计算量。
当然即便如此,训练Deepseek的成本还是巨大的,虽然没有最先进的显卡,但保守估计还是用了大概50000张显卡。
三、未来?
最后,主讲人提到Deepseek还是有一些没公布的技术细节,比如没有开源整个训练过程,包括数据集和训练权重。
但这并不妨碍其他人复现Deepseek,据我所知,已经有几个组靠着公开的技术文档复现了mini版的Deepseek-r1,效果相当不错,正准备往智能医疗智能教育方向应用。
Deepseek的技术开源将对整个大模型领域影响深远。
最后,不得不说国外对Deepseek关注度还是很高的,当然Deepseek也配得上这样的关注。
回到问题本身,Deepseek究竟处于什么水平?
就目前各方反响来看,稳稳处于第一梯队,与最先进的大模型不相上下,但要说远远超过遥遥领先倒也不至于。
不过目前Deepseek处于GPU劣势,同样的技术,别人用更多的显卡一定能堆出比它更好的模型,尤其是在公布技术路线后,短时间出现比Deepseek更强的模型是必然的。这时我们只能期待下一次的技术工程革新了。
不论如何,Deepseek最近的动作都称得上是大模型领域的revolution,未来大模型的进化只会越来越快,竞争越来越激烈,AI取代人类将不再是镜花水月。
但
无论最终结果将人类历史导向何处,我们决定,选择希望!
来源:直看云起时