成本不到150元!李飞飞等26分钟训出个推理模型,媲美o1和R1,秘诀:用蒸馏

360影视 2025-02-07 14:20 3

摘要:此外,团队提到,s1-32B仅仅使用了1000个样本训练,在AIME24上的成绩就能接近Gemini 2.0 Thinking,是“样本效率最高的开源数据推理模型”。研究人员还表示,Budget forcing在控制、缩放和性能指标上表现最佳。而其它方法,如T

衡宇 发自 凹非寺量子位 | 公众号 QbitAI成本不到150元,训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型?!这不是洋葱新闻,而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新杰作:s1。在数学和编程能力的评测集上,s1的表现比肩DeepSeek-R1和o1。此外,团队提到,s1-32B仅仅使用了1000个样本训练,在AIME24上的成绩就能接近Gemini 2.0 Thinking,是“样本效率最高的开源数据推理模型”。研究人员还表示,Budget forcing在控制、缩放和性能指标上表现最佳。而其它方法,如Token-conditional控制、步骤条件控制、类条件控制等,均存在各种问题。One More Things1模型,是在一个1000个精挑细选的小样本数据集上,通过SFT,让小模型能力在数学等评测集上性能飙升的研究。但结合近期刷爆全网的DeepSeek-R1——以1/50成本比肩o1性能——背后的故事,可以窥见模型推理技术的更多值得挖掘之处。模型蒸馏技术加持下,DeepSeek-R1的训练成本震撼硅谷。现在,AI教母李飞飞等,又一次运用「蒸馏」,花费低到令人咋舌的训练成本,做出了一个能媲美顶尖推理模型的32B推理模型。一起期待大模型技术更精彩的2025年吧~arXiv:https://arxiv.org/pdf/2501.19393GitHub:https://github.com/simplescaling/s1参考链接:https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/— 完 —

来源:璐璐课堂

相关推荐