摘要:1月20日,中国AI公司深度求索(DeepSeek)发布的DeepSeek-R1模型,凭借其独特的强化学习(RL)训练方法,首次让AI展现出类人的“顿悟时刻”——在解决复杂问题时,模型会突然停下思考,自主修正推理路径,甚至用自然语言标注“等等,这一步可能有误”
现在的AI模型也能“灵光一现”,实现顿悟了?
1月20日,中国AI公司深度求索(DeepSeek)发布的DeepSeek-R1模型,凭借其独特的强化学习(RL)训练方法,首次让AI展现出类人的“顿悟时刻”——在解决复杂问题时,模型会突然停下思考,自主修正推理路径,甚至用自然语言标注“等等,这一步可能有误”。
(AI在思考的过程中突然停下:“等等,等等。这是一个顿悟时刻。让我们一步一步地重新评估一下,以确定正确的总和...”)
知名AI评测员Matthew Berman表示,R1拥有他所见过的最像人类的内心独白。
从“人类教”到“自己学”
DeepSeek-R1的这种特点,和它独特的训练方式有关。
传统的AI训练有三个阶段:预训练、SFT(监督微调)、RL(强化学习)。打个比方,传统AI需经历三阶段学习:先在预训练阶段里“背书自学”基础知识,再在SFT阶段里“抄写教案”模仿人类示范,最后在RL阶段里“模拟考试”优化表现。
而R1 Zero跳过了SFT阶段,直接进入了RL阶段。也就是说,DeepSeek-R1直接砍掉用人工标准数据训练的“模仿”环节,而是仅凭基础语言能力和数学规则,在持续解题试错中自悟知识体系。
SFT的使用是当年ChatGPT成功的关键,而R1 Zero完全用强化学习替代了SFT。
DeepSeek-R1成功的秘诀在于构建了一个智能训练场,这一系统由三个技术组件构成:动态题目生成系统、过程验证体系和协同工作机制。用一个比喻来说,每解完一题,系统自动生成更难的变体题,并实时验证解题过程逻辑是否自洽。它迫使AI像数学家般提炼方法论,甚至能将几何证明中的反证法迁移到代码检测中。
这个训练过程展示了强化学习的潜力。未来的AI发展,依然充满无限可能。
强大,便宜,还开源
据介绍,DeepSeek-R1的功能比肩OpenAI o1。
根据DeepSeek官方公布的数据,DeepSeek-R1在AIME2024上获得了79.8%的成绩,略高于OpenAI-o1-1217的79.2%。在MATH-500上,它获得了97.3%的惊人成绩,表现略高于OpenAI-o1-1217的96.4%,并明显优于其他模型。在编码相关的任务中,DeepSeek-R1在Codeforces上获得了2029 Elo评级,在竞赛中表现优于96.3%的人类参与者。对于工程相关的任务,DeepSeek-R1的表现略优于OpenAI-o1-1217。
性能这么强大,那么,价格如何呢?
DeepSeek-R1 API服务定价为每百万输入tokens1元(缓存命中)/4元(缓存未命中)。输入token(命中缓存)价格只有OpenAI o1的1/55,未命中缓存以及输出token价格约为o1的1/27。
最关键的是,DeepSeek将R1的训练技术全部公开了!
很多网友都为其超高的性价比和开源的行为震惊,高呼“源神”。
“Copy from China”
针对DeepSeek发布的论文,英伟达高级研究科学家Jim Fan在X上公开发表了一篇推文:我们正身处这样一个历史时刻:一家非美国公司正在延续OpenAI最初的使命——通过真正开放的前沿研究赋能全人类。看似不合常理,但最有趣的结局往往最可能成真。
有趣的是,在DeepSeek-R1发布后的两小时内,另一家国产厂商月之暗面也推出了在数学、代码、多模态推理能力等方面全面对标OpenAI o1的新模型——K1.5。
周鸿祎在年初谈及对国产大模型的看法时表示,过去我们是模仿者和追随者,他人擅长从零到一,我们擅长从一到n,如今情况正转变,中国科技领域原发性创新已让全世界看到,过去是“Copy to China”,以后可能是“Copy from China”。
让我们共同欣喜地看到中国创新引领世界发展,期待“Copy from China”的未来。
资料来源:潮新闻、观察者网、每日经济新闻、DeepSeek官网等
来源:大众日报