二湘:Deepseek是真正的创新还是穿着AI皇帝的新衣?

360影视 2025-01-31 11:18 2

摘要:昨天看到很多群里转发这条信息:“据彭博新闻周二报道,微软和 OpenAI 正在调查 ChatGPT 技术的数据输出是否被与 DeepSeek 相关的一个团体以未经授权的方式获取。

Deepseek是真正的创新还是穿着AI皇帝的新衣?

文/二湘

昨天看到很多群里转发这条信息:“据彭博新闻周二报道,微软和 OpenAI 正在调查 ChatGPT 技术的数据输出是否被与 DeepSeek 相关的一个团体以未经授权的方式获取。

报道称,微软的安全研究人员观察到,在去年秋季,他们认为与 DeepSeek 有关的个人使用 OpenAI 的应用程序编程接口(API)提取了大量数据。”

许多人根据这条信息做出结论,认为Deepseek是小偷,Deepseek是Deepshit。许多人都在转发这篇题为《deepseek穿上Ai皇帝的新衣,精英集体蜕化为乌合之众》的文章,认为DeepSeek不过是基于OpenAI的GPT企业版API做了一些二次封装和微调,核心技术并未自研。

我认为这个结论是不准确的,把DS的蒸馏技术当作API二次封装显然是对AI的核心技术不够了解。

那么什么是蒸馏技术呢,业内人士一般称为model distillation(模型蒸馏), 也有人称为knowledge distillation(知识蒸馏),简单来说,就是将复杂大模型(教师模型)的知识“压缩”到更轻量的小模型(学生模型)中,通过模仿教师模型的输出(如概率分布),小模型保持了高性能并且减少了计算量。通俗一点讲,就是学生模仿老师的输出或中间特征,从而将老师的知识和方法(如推理能力、模式识别等)迁移到学生手里。

而API二次封装指的是一个App把终端用户的问题直接甩给另外一个App,得到回复后再把答案返回这边的App。

注意这两者最大的不同是在蒸馏技术里,学生模型学会了老师的推理方法,有了自己的模型,用户的问题是在学生模型里生成的,来自学生自己的App,而在后者,答案是来自另外一个App。

而DeepSeek的核心优化手段是知识蒸馏,目的是将大模型的智能推理方法高效迁移到自己的轻量化模型中,而非直接压缩数据,更不是简单的二次包装获取答案。

文章中提到DeepSeek调用OpenAI的核心证据是当问及”what model are you“时,Deepseek回答是chatGPT,或者”GTP-3”,但这其实不过是DS在Post TrAIning Reinforcement learning (RL)的阶段调用了一些OpenAI的API 获取一些数据。而这种调用是允许的,并且是付费的。当然,这里的确有一个潜在的问题,那就是OpenAI的API调用,每一个账号都有一个Limit,不知道DS是不是用code或者多人多账号的方式绕过了这个Limit,这大概就是微软所说的未经授权的方式获取数据。

昨天和谷歌一个负责Gemini构建的技术主管聊了一阵,他说,其实大模型蒸馏是很常见的,业界一般就是调用比较强的大模型,获取几千至上万不等的prompts & responses用来做RL。DS的Thinking Model(推理模型)有很大的创新,业界公认的推理模型第一梯队包括openAI,谷歌和DS,Anthropic还没有自己的thinking model, Meta在这方面是落后的。AI业内人士早在半年前就关注DS了,Deepseek的技术是很靠谱的,梁文峰是业界公认的懂技术细节的领导者,放眼整个AI圈都找不到一把手CEO这么懂技术细节。DS的确是做的非常好,有许多创新,并且是改变了游戏规则,低成本也可以做AI开发,这必然会鼓励更多人加入AI的开发大军。

有人说,DS不过就是蒸馏技术里的佼佼者而已,答案也并非如此。DS的确是有不少自己的创新的, 用我的一位朋友,AI技术大拿张峥的话说,就是站在巨人肩膀上,长出了自己的脑袋。

那么DS到底有哪些创新呢?

首先是模型架构上有创新。

DS是以强化学习(RL)为核心驱动推理能力,传统大模型主要依赖监督微调(SFT),而 DS首次利用RL作为推理能力的核心训练方式。DeepSeek-R1-Zero 甚至完全采用 RL 训练,不依赖 SFT,当然也出现可读性差、语言混乱等问题。但这是首个公开研究证明 LLM 的推理能力可以纯粹通过RL 激励,而不需要 SFT。这个纯粹依赖RL作为训练方式有些像Deepmind的AlphaGo,通过不断地学习,不断地纠错,从一无所知直接练成一个绝世高手。这一突破为未来该领域的研究奠定了基础。

DeepSeek-R1 采用 “SFT + RL” 的混合训练策略,既保持了语言表达的自然流畅,又强化了推理能力。效果非常好,Performance比肩GPT-01的模型了,注意这些Benchmark都是要通过第三方验证,并不是DS自己说了算的:

其次是DS在训练与数据策略上有创新。

DS提出了新的训练管道: 该管道包含两个 RL stage,用于发现改进的推理模式并对⻬人类的偏好,同时还包含两个 SFT stage,作为推理模型与非推理能力的种子。

DS在训练的时候强调质量优先, 用的是高质量、垂直领域的数据(如数学题解、代码仓库),而不是单纯追求数据规模。还有就是高性价比的训练:通过架构优化和数据效率提升,仅用1/8的训练算力即达到GPT-3.5的性能水平。

第三就是DS提供了一些新的强化学习(RL)的算法。

DS的第五篇论文《通过强化学习激发大语言模型的推理能力》里提到了这么几种算法:

1. 组相对策略优化(GRPO): 为节省 RL 的训练成本,DS采用分组的方式,这个有点像在医院里挂专门的门诊,而不是全部都查一遍。为了避免传统强化学习中使用与策略模型相同规模的评论模型(Critic Model),DS通过分组评分来估计基准。

2.奖励机制(rewarding modeling)。奖励是训练信号的来源,决定了强化学习(RL)的优化方向。DS主要用到两类奖励:准确性奖励和格式奖励。

3. 在训练 DeepSeek-R1-Zero 时,DS设计了一个简单的模板,首先生成推理过程, 然后再生成最终答案。DS有意将约束限制在结构格式上,避免引入任何偏⻅,比如要求模型进行反思性推理,确保准确观察模型在强化学习过程中的自然发展。

这篇paper还提到了模型自我进化过程中一个引人注目的地方,就是随着测试时间和计算的增加,模型会自然涌现出复杂行为和大量强大且有趣的推理行为。例如,模型会反思,并重新评估之前的步骤,还会探索解决问题的替代方法。还会出现顿悟时刻,这些行为并非明确编程而成,而是模型与强化学习环境交互的自然产物。这一点其实是有些吓人的,因为和人类的思考过程如此相似。

另外DS还探索了从 DeepSeek-R1 到更小密集模型的蒸馏过程,并且开源提供了六个蒸馏模型给公众用,任何人都可以去DS的官网下载这些小模型,装到自己的PC上用,这个做法也是非常大气的。

我们知道AI的三大要素是算法,算力和数据。DS在算法上是有很多创新的,在算力上,也通过优化降低了对硬件的需求,极大地降低了对高端芯片的要求,这些都值得称道的。有些人对DS自称的600百万训练成本表示怀疑,我的一位业内朋友认为500百万到一千万是可信的,当我追问为什么,他表示还不能透露。

DS唯一有些不足的是数据不够,容易踏空,但是数据这块也是灰色地带,耐人寻味的是chatGPT自己的数据来源也不完全合法,Sora几乎肯定是从youtube里获取了数据,而纽约时报也在告OpenAI盗用了他们的数据。并且,DS是开源的,它的API也是以极低廉的价格提供给用户。但OpenAI虽然自称Open,却是闭源的,而且,下载它的最高版本需要200美元,调用API更是昂贵。所以,不难理解为什么DS 现在跃居为App store里最受欢迎的APP。相信当更多人使用DS,就会提供更多数据,DS将来对OpenAI数据的依赖也会减少。

当然,DS的短板也是非常明显的,因为众所周知的原因,许多社科历史问题在DS上是没有答案的,这个时候,DS就会要你换一个话题。

因为诸如汉芯之类的事件,许多人对国货表示质疑,这都可以理解,但这次DS的确是做出了不少创新,尤其是开源的态度让人侧目,5篇技术论文也是非常坦诚透明地公布自己的方法和创新,的确赢得了业内人士诸多好评和尊重。

当然,将来可能也会有一些不为人知的细节慢慢浮出水面,但是,既然敢开源,尤其是面对一众人类最强大脑,DS应该是有敬畏的,也是知道深浅的。我们也不妨再等上一两个月,如果有人可以完全复制他们的低成本和高效率,应该就更没有什么问题了。

另外就是DS和OpenAI其实走的是两条路,前者是高效训练(high efficiency),强调优化、算力利用率提升,在更少的资源下达到更好的效果。而后者是Brutal Force(大力出奇迹),用大量的算力和数据来训练更强大的模型。究竟哪条路会胜出,现在也不好说,但是,这两者也不是完全对立的,OpenAI 也在优化模型,尤其是在受到DS启发后,而 DeepSeek 未来如果有足够资源,也会加大算力投入。因此,两者的区别更多是现阶段策略上的不同,将来肯定是会取长补短。

如果把这场AI之争不是简单的看作中美之争,而是看做开源和闭源之争,甚至是美国一个技术网红Teortaxes说的“人类与通用人工智能 vs 猿类权力集中化之争(humans and AGIs vs ape power centralization.),那么我们的心态可能会更宽容一些。

总之,这些人类最强大脑正在做着天翻地覆的事情,我们只能静静地看着它们会把人类引向何方。

来源:正直光束Me

相关推荐