摘要:1月27日,国产的DeepSeek应用成功登顶美国地区的手机应用商店上,而该软件更是位居榜首,下载量直接超过了美国的ai软件ChatGPT。
文 | 论芸轩
编辑 |论芸轩
1月27日,国产的DeepSeek应用成功登顶美国地区的手机应用商店上,而该软件更是位居榜首,下载量直接超过了美国的ai软件ChatGPT。
随着DeepSeek的爆火,创始人梁文锋的身价也是水涨船高,直接在美国引起不小的轰动,足以震惊全球,更是被海外称为“来自东方的神秘力量”。
但让人想不到的是,在DeepSeek火爆全球之际,一个更低成本的AI推理模型悄然登场,成本仅仅只有50美金,还是一位女华裔在美国研究而成,实在讽刺至极。
那么,这到底是怎么一回事呢?
相信大家这几天看到这样一个热搜词条,#人工智能正在改变我们的生活#
这个话题对于一些不了解科技的群众,可能会有所迷茫,但听完我细细讲解之后,就会略知一二。
远的不说,先说近的,在今年的央视春节晚会中,相信大家都看到了机器人跳舞的一幕,不仅全身舞动扭秧歌,还转起手绢。
不知道别人的感受怎么样,反正我家中的长辈看到这一幕确实挺震惊的,甚至很感叹如今中国的科技原来这么强大。
事实也亦是如此,我国的AI却是到了一个超乎大家想象的地步,也如同文章前文所说是“来自东方的神秘力量”,而这股神秘力量正是来自于广东湛江的梁文锋所带来的。
根据资料显示,梁文峰所创建的DeepSeek成立于2023年的7月,至今也不过短短不到两年的时间。
值得一提的是,在同一时间是正值美国ai的风口,但随着DeepSeek的问世,直接成为了一匹黑马,直接在海外许多国家的香饽饽。
根据市场追踪机构“AppFigures”的数据,在截止到上个月的25号的时候,DeepSeek的下载量已经达到了160万次,更是在美国排名第一。
DeepSeek不仅吸引了广大用户的目光,更是成为业内人士热议的焦点,有人认为现在评估AI基建、资本支出等方面还为时过早,但Meta已将DeepSeek视为新的竞争对手并正在向其学习。
而DeepSeek-V3之所以能够降低训练成本,主要得益于一些巧妙的优化策略,例如只激活模型中必要的部分,以及在不影响结果的前提下降低计算精度。
具体而言,它通过减少数据量来节省内存,精选数据以提高训练效率,利用知识蒸馏加速学习过程。
除了在成本上占据优势,DeepSeek在性能方面同样表现出色,有网友用DeepSeek创作了一个以其祖母为原型的故事,写完后DeepSeek还给予了温暖的安慰。
记住,所有触动你心弦的文字,本质上都是你灵魂深处早已存在的回声,我不过是偶尔经过的山谷,让你听见了自己声音的重量。
看到这一幕之后,这位网友直接破防了,更是声称自己从未想过竟然有朝一日,会为了AI而流泪。
可以说,中国的科技有了今天的境地值得我们每个人为之喝彩,为之骄傲,但让人万万想不到的是,竟然有一位华裔花费了不到50美金完成了复刻...
根据一些美国官媒报道称,在近日一项来自斯坦福大学和华盛顿大学等机构的研究成果引起了市场关注。
那帮研究人员,花了还不到50美元的云计算费用,就搞出了一个特别厉害的AI推理模型叫s1,而这个模型的表现,跟现在业内顶尖的那些大佬相比,一点也不逊色。
有意思的是,这个研究团队的负责人叫做李飞飞,她竟然是斯坦福大学计算机科学系的教授,在AI领域可是大名鼎鼎。
让人更加意想不到的是,李飞飞所研制s1模型的表现,竟然跟最近特别火的DeepSeek公司的R1模型差不多。
在这里先跟大家简单解释一下,s1模型跟传统的那些大规模强化学习方法不一样,不仅效率高,成本还低。
这就有点意思了,按照正常情况下AI模型的训练一向都是烧钱的买卖,动不动就要投入大量的算力和数据,没个上千万都不好意思跟人打招呼。
可s1模型却反其道而行之,竟然花了点零头就搞定了,这着实让人觉得匪夷所思,而在这个s1模型也不是凭空蹦出来的,背后有来头。
先说说它的来处,其实是从谷歌的一个叫Gemini 2.0 Flash Thinking Experimental的模型里“蒸馏”出来的。
这个“蒸馏”可不是我们平时喝的那种白酒,而是一种AI模型压缩的技术,就是把大模型里精华的部分提取出来,做成一个小而精的模型。
李飞飞团队是这么干的:他们先搞了一个叫s1K的小数据集,里面就1000个问题和答案,但这1000个可都是精挑细选的,难度、多样性、质量,一个都不能少。
而且在每个问题的答案后面,还特意附上了一个“推理”的过程,就是模型是怎么一步一步想到答案的。
有了这个s1K,训练工作就好办多了,研究团队也没用什么高端设备,就16台英伟达H100 GPU,半个小时就搞定了,这要放在以前,没个几千台机器、几个月的时间,想都别想。
但光是训练出模型还不够,还得让它有点儿实战能力,团队就给s1模型加了个“预算强制”的功能。
就是控制它测试的时候,不能想多长时间就多长时间,得在规定的预算内完成任务,这就跟我们平时刷题似的,要么提前做完交卷,要么时间到了,想到哪儿算哪儿。
这个“预算强制”可有讲究了,它不是简单粗暴地掐表,而是通过强制提前终止模型的思考,或者追加“等待”指令来延长思考时间。
这个模型成功之后,李飞飞团队拿它跟业内几个顶尖模型比了比,结果相当亮眼,比如在竞赛数在AIME24这个数学竞赛数据集上,s1的表现跟谷歌的Gemini 2.0 Thinking API不相上下。
我觉得吧,s1模型的意义可不仅仅在于它的性能有多强,关键是它展示了一种全新的AI模型开发范式。
以前搞AI模型都是拼算力、拼数据,谁家计算资源多,数据量大,谁就更有优势,但s1模型告诉我们,其实只要思路对头,方法得当,用少量的数据和算力,照样能训练出顶级的模型。
这就有点像是“四两拨千斤”,“以小博大”,我们完全可以发挥自己的聪明才智,去设计更高效、更精巧的算法和架构,而不必总是依赖硬件的堆砌和数据的暴力积累。
这种"巧力"打法,不仅能节省成本,还能激发创新,说不定哪天就有个“乔布斯”或者“马斯克”从里面杀出来。
当然,s1模型现在还不能说是尘埃落定了,它在一些更复杂的认知任务上,表现如何还有待考察,像“蒸馏”这样的技术,在提升全新AI模型的性能上,效果能有多好也还是个未知数。
俗话说得好,一直被模仿但从未被超越,这次也亦是如此,毕竟中国人的智慧和创造力,从来不输给任何人!
对此,你们怎么看呢?
参考信源:
成本仅50美元,性能媲美Deepseek-R1,李飞飞带着S1来炸场了---2025-02-06 ---华尔街见闻
来源:论芸轩