成本不到150元！李飞飞等26分钟训出个推理模型，媲美o1和R1，秘诀：用蒸馏

摘要：此外，团队提到，s1-32B仅仅使用了1000个样本训练，在AIME24上的成绩就能接近Gemini 2.0 Thinking，是“样本效率最高的开源数据推理模型”。研究人员还表示，Budget forcing在控制、缩放和性能指标上表现最佳。而其它方法，如T

衡宇发自凹非寺量子位 | 公众号 QbitAI成本不到150元，训练出一个媲美DeepSeek-R1和OpenAI o1的推理模型？！这不是洋葱新闻，而是AI教母李飞飞、斯坦福大学、华盛顿大学、艾伦人工智能实验室等携手推出的最新杰作：s1。在数学和编程能力的评测集上，s1的表现比肩DeepSeek-R1和o1。

此外，团队提到，s1-32B仅仅使用了1000个样本训练，在AIME24上的成绩就能接近Gemini 2.0 Thinking，是“样本效率最高的开源数据推理模型”。研究人员还表示，Budget forcing在控制、缩放和性能指标上表现最佳。而其它方法，如Token-conditional控制、步骤条件控制、类条件控制等，均存在各种问题。One More Things1模型，是在一个1000个精挑细选的小样本数据集上，通过SFT，让小模型能力在数学等评测集上性能飙升的研究。但结合近期刷爆全网的DeepSeek-R1——以1/50成本比肩o1性能——背后的故事，可以窥见模型推理技术的更多值得挖掘之处。模型蒸馏技术加持下，DeepSeek-R1的训练成本震撼硅谷。现在，AI教母李飞飞等，又一次运用「蒸馏」，花费低到令人咋舌的训练成本，做出了一个能媲美顶尖推理模型的32B推理模型。一起期待大模型技术更精彩的2025年吧～arXiv：https://arxiv.org/pdf/2501.19393GitHub：https://github.com/simplescaling/s1参考链接：https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/— 完 —

来源：璐璐课堂

标签：推理模型 o1 教母

本文地址：https://news.43u.com.cn/a/604067.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!