摘要:DeepSeek R1 引爆了全球科技界,全球不少AI研究团队,都在尝试复现DeepSeek的奇迹。
来源 | 奇偶工作室
撰文 | 一个基哥
DeepSeek R1 引爆了全球科技界,全球不少AI研究团队,都在尝试复现DeepSeek的奇迹。
这不,又一个成果来了。
李飞飞等斯坦福大学和华盛顿大学的研究人员,站在开源模型Qwen2.5的肩膀上,训练成本仅花了不到50美元,就成功训练出了s1的AI推理模型,性能媲美OpenAI!
在数学和编程能力测试中,s1的表现与OpenAI的o1模型和DeepSeek R1模型相当!
s1的代码和数据已在GitHub上开源,共其他人使用。
1
训练成本不到50美元
s1模型论文的作者,斯坦福大学在读博士 Niklas Muennighoff在论文中表示,训练过程使用了16个英伟达 H100 GPU,耗时 26 分钟。
以不到50美元的云计算费用,约合人民币约362元,就训练了一个名叫s1的人工智能推理模型。
特别值得一提,这位大佬还是北京大学本科毕业的。
还拿了北大的全额奖学金,北大出人才。
2
少即是多,开源的胜利
s1也采用了DeekSeek类似的蒸馏技术。
在现有的阿里巴巴Qwen2.5-32B-Instruct的基础开始,然后使用谷歌最新的Gemini 2.0 Flash Experimental进行微调。
为了微调模型,他们使用了监督微调(SFT),这种方法比DeepSeek的强化学习(RL)更快,耗时更少。
作者Niklas Muennighoff,他还特别感谢了Meta。
Meta AI提出了一种新的大语言模型训练方法LIMA,“Less Is More for Alignment”,即“少即是多的对齐”。
通过使用少量(如1000个)精心挑选的问题,从少数示例中学习并泛化到未见过的问题。
s1大模型,就是用1000个高质量、多样化和困难的问题来训练。
此外,研究团队还采用了一个技巧,在推理过程中添加“等待”一词,从而提高答案的准确性。
延长了小模型的思考时间,就实现了对大模型的精细化模仿!
结果来看,s1-32B在竞赛数学问题上,性能比o1-preview提升了高达27%(MATH和AIME24)。
相比于DeepSeek R1:在MATH 500中,二者相差并不大(DS R1:97.3%);(S1-32B:93.0%)。
模型、数据和代码在github上都能找到。
3
大神李飞飞
作为s1论文作者之一的李飞飞,在1976年出生于中国北京,是家中的独女,16岁时赴美求学。
原本主修物理,后来转系攻读电气工程,立志要让机器拥有视觉能力。2005年获得电子工程博士学位。
33岁时就成为斯坦福计算机系终身教授,她创立了ImageNet:一个拥有1500万张图片的数据库,成为人工智能计算机视觉研究的奠基之作。
这张图片可能很出名了:
2016年8月,黄仁勋亲手将DGX-1至位于旧金山的OpenAI总部。上面写了:“致埃隆和OpenAI团队!献给计算与人类的未来,为你们呈上全球首台DGX-1!”
而没有人记得的是。
在紧接着的一周里,黄仁勋将另一台带有他签名的DGX-1,就送到了斯坦福大学李飞飞的实验室。几天之后,2016年ImageNet竞赛拉开了帷幕。
4
结语
在2025年开始,Meta、谷歌和微软计划投资数千亿美元用于AI基础设施,其中一部分将用于训练下一代AI模型。
DeepSeek R1引爆了全球科技界,它大幅简化了算力需求,撼动了英伟达万亿市值,引发了全行业的反思。
DeepSeek开源,全球研究员大量参与,开源AI大模型可以更进一步。
s1模型的神奇“低成本”,是建立在开源基础模型,例如阿里Qwen之上的,可谓依然是开源的胜利。
闭源与开源,在AI大战中,谁胜谁负,谁是更优秀的形式,结果还未可知。
来源:小方科技观察