摘要:DeepSeek这次最具突破性的发现是,证明了通过纯粹基于结果的强化学习(Outcome Reward RL),就能将模型提升到O1级别。在此之前,行业内包括DeepMind在内的所有团队都认为,必须依赖**过程奖励模型(Process Reward Mode
GPT > DeepSeek > Gemini > LLaMA及其他
很多人关注点在于DeepSeek用更少的GPU就能训练出效果相近的模型。但实际上,更重要的是支撑这一结果的技术突破:
DeepSeek的核心创新
1. 强化学习的颠覆性变革
DeepSeek这次最具突破性的发现是,证明了通过纯粹基于结果的强化学习(Outcome Reward RL),就能将模型提升到O1级别。在此之前,行业内包括DeepMind在内的所有团队都认为,必须依赖**过程奖励模型(Process Reward Model, PRM)**才能达到这一效果。这一发现直接颠覆了行业的认知,几乎所有非OpenAI的大型LLM团队现在都在推倒重来,复制DeepSeek的训练方法。
2. 模型的自我进化能力
更重要的是,DeepSeek发现这种训练方法甚至能够让模型自发学会长链推理(Longer-Chain Reasoning)和反思能力(Reflection),也就是他们所谓的“aha moment”。简单来说,通过只训练模型以获得更准确的结果,LLM就可以自发学会反思——在思考过程中意识到当前路径可能出错,并主动尝试自我纠正。这种模型“自我进化”的特性,堪称继GPT“智能涌现”之后,行业内的又一重大突破。
从结果到行业意义
表面上看,DeepSeek“用更少的GPU训练出效果相近的模型”似乎只是降低了成本,但实际上,这种方法代表了对扩展法则(Scaling Law)的改进。如果在这种训练方法上投入更多的计算资源,模型能力可能会再提升一个数量级,甚至有望直达AGI(通用人工智能)或ASI(超人工智能)的境界。
正因如此,这次DeepSeek的开源引发了行业的高度关注,其价值远远超过LLaMA。LLaMA主要是通过已知方法堆叠计算资源来训练模型,而DeepSeek则带来了前所未有的技术惊喜和可能性。
来源:吕晓彤