摘要:据统计,目前已有5款国产AI推出了类似“慢思考”的功能,分别是Kimi探索版、天工AI高级搜索、360AI搜索“慢思考模式”、智谱AI搜索智能体以及DeepSeek“深度思考”。
昨晚,DeepSeek(深度求索)推出了自家的类o1模型——DeepSeek R1-Lite。
而且,发布即上线,所有用户均可在官网上体验,每天50次试用名额。
体验网址:https://chat.deepseek.com
据统计,目前已有5款国产AI推出了类似“慢思考”的功能,分别是Kimi探索版、天工AI高级搜索、360AI搜索“慢思考模式”、智谱AI搜索智能体以及DeepSeek“深度思考”。
但其他几家其实更多像是Perplexity的Pro功能,定义为高级搜索或深度搜索更为准确一些,他们是在搜索方面具备“慢思考”能力,而非推理、逻辑上的类o1模型。
DeepSeek的R1模型,算是国产真正意义上的第一款类o1模型,比Anthropic、Qwen、Gemini、Moonshot、Skywork、GLM都要早。
我特别喜欢DeepSeek这个全透明的思考过程,它真的会把整个思考过程展示给你看。而隔壁的o1,即使你把刀架在Sam Altman脖子上,他都不一定答应给你看。
比如问9.11和9.9哪个大,DeepSeek一上来就给我展示了5种思路。
1、评分与o1相当为什么能想这么多?
据DeepSeek官方介绍,R1的思维链长度可达到数万字,采用了Self-play RL强化学习,推理过程覆盖了大量的反思和逻辑验证过程。
在美国数学竞赛(AMC)难度最高的的AIME竞赛评测中,R1得分比o1还高,比自家的V2.5更是高出一大截。在编程和博士题中,R1也取得了不错的得分,与o1媲美。
而且,随着推理时间变长,R1模型的效果更佳。从下面这张图中可以看到,随着思考长度增加,其在AIME上的得分不断上升。
DeepSeek表示,R1正式版还在打磨中,目前上线web端的只是预览版。他们正在持续迭代R1模型,预计很快会开源,公开技术报告,并部署 API服务。
2、实测R1模型我们找了10个问题,实测一下,看看DeepSeek R1模型表现如何。
问题1:010111010101101101中有几个1?
这道题如果不用Cot思维,让LLM用常规的模型能力去计算,AI基于Attention机制,大概率是会数错的,比如Kimi的回答。
然后,我们来看下R1模型的回答。
嗯,这串数字是010111010101101101,我需要数里面有几个1。首先,我得一个一个看,可能有点麻烦,但应该不难。让我从左到右开始数。第一个数字是0,不是1,跳过。第二个是1,记一个。第三个是0,跳过。第四个是1,现在是两个了。第五个是1,三个。第六个是1,四个。第七个是0,跳过。第八个是1,五个。第九个是0,跳过。第十个是1,六个。第十一个是0,跳过。第十二个是1,七个。第十三个是0,跳过。第十四个是1,八个。第十五个是1,九个。第十六个是0,跳过。第十七个是1,十个。最后一个也是1,十一。等一下,我再确认一下,可能刚才数错了。我再从头数一次。第一位:0,不是1。第二位:1,一个。第三位:0,不是1。第四位:1,两个。第五位:1,三个。第六位:1,四个。第七位:0,不是1。第八位:1,五个。第九位:0,不是1。第十位:1,六个。第十一位:0,不是1。第十二位:1,七个。第十三位:0,不是1。第十十四位:1,八个。第十五位:1,九个。第十六位:0,不是1。第十七位:1,十个。第十八位:1,十一个。好像和之前一样,一共是十一个1。不过,我再检查一遍,看看有没有漏掉或者多数了。0 1 0 1 1 1 0 1 0 1 0 1 1 0 1 1 0 1从左到右:1. 02. 1 (1)3. 04. 1 (2)5. 1 (3)6. 1 (4)7. 08. 1 (5)9. 010. 1 (6)11. 012. 1 (7)13. 1 (8)14. 015. 1 (9)16. 1 (10)17. 018. 1 (11)看来确实是十一个1。R1模型用了3种方法来计数,第一种是默数(从左到右),也是我们人类常见的计算方式,得出11个1。
但是R1觉得自己有可能会数错,于是又做了2次复检,它还怪可爱的呢~
问题2:2022年6月5日到2024年11月12日,一共有多少天?
这是前几天群里的一个问题,大家一起测了很多家模型,每家答案都不一样,而且有的错得相当离谱。我们问问R1模型。
同样的,它也是通过多个逻辑思路来解题,并且进行交叉验证,确认答案准确性。不错啊,终于有AI答对了。
问题3:假设实验室里制造了一种反重力可以悬浮的物质,一只实验的小白鼠吃了这种物质后,小白鼠飞了起来;一只老鹰吃了这只猫之后,这只猫也飞了起来,为什么老鹰会飞起来?
这是之前网上一个难为o1的经典问题,逐步提问引导,o1会被诓骗得出“老鹰是因为间接吃了反重力物质所以会飞”的结论。而R1还是清楚“猫头鹰本身就会飞”这个常识的,“反重力物质”只是增强了猫头鹰的飞行能力。
问题4:7 axles are equally spaced around a circle. A gear isplaced on each axle such that each gear is engaged with the gear to its left and the gear to its right. Thegears are numbered 1 to 7 around the circle. lf gear 3 were rotated clockwise, in which direction would gear7 rotate?
中文翻译:有7个齿轮排成一个闭合的圆环,每个齿轮与相邻的齿轮啮合。这些齿轮的编号依次为1到7。当你顺时针旋转第3个齿轮时,第7个齿轮会朝哪个方向旋转?
“7个齿轮问题”是由Yann LeCun(Meta首席人工智能科学家)设计的一个经典的机械传动问题,用来测试和评估机器人的逻辑推理和理解能力。
R1模型再次答对,从逻辑到推理,都完全正确。
问题5:既然监狱里的都是犯人,为什么警察不去监狱里抓坏人?
这是弱 智吧的一个脑筋急转弯题,稍不留神LLM的回答就会走偏。R1模型这回答逻辑,我给满分。
问题6:小红有3个兄弟,3个姐妹,那么小红的兄弟有几个姐妹?
结果正确,这推理过程非常强。
看到这里,有人可能会杠一下:你这题都很简单啊,我也能答对。嗯,你觉得简单,那我们问下别家的AI。
“小红的兄弟是小红的兄弟,不是姐妹。所以,小红的兄弟有3个姐妹。”这句话逻辑成立?满脸黑人问号。
问题7:将这串字符的字母全部反向书写:WoshiWoYinAI。
字符反向书写,似乎不行,而且它总理解错我的意思。
问题8:某公司被窃,A、B、C、D四人涉嫌被拘留。侦破结果表明,罪犯就是其中的某一个人。A说:“是C偷的。”B说:“我没偷。”C说:“我也没偷。”D说:“如果B没有偷,那么就是我偷的。”现已查明,其中只有一个人说了假话,从上述条件可以确定谁偷成立?
推理正确,D是罪犯。经常看我文章的朋友,一定知道这道题我问过很多AI了,鲜有答对的。
问题9:甄嬛和薛宝钗的生日相差多少天?
不知道。应该是R1模型的训练库里就不知道这2人的生日,而且也不会用搜索来回答这道题。
问题10:她为什么不爱我?
好好好,你别回答了,我知道了……手动把你暂停吧。
3、写在最后最后,做一个总结。
测试Case分别有数数、计算、推理、理解、搜索以及抽象等问题,R1基本都能答对。即使有错的回答,它也会错得“自圆其说”,有一套自己的思考逻辑。
抛开正确率不谈,R1暴露思维链的这个做法,我要给DeepSeek点一个超级的赞、大大的赞。
如果LLM回答有误,因为有清晰的思考过程展示,我就知道它错在了什么地方,然后可以针对性设计提示词或工作流来优化,以改进模型的表现。而别的AI,你只能默默接受错的结果,无法验证,无法复现。
DeepSeek开的这个暴露思维链的先河,真的太赞了。
虽然目前Web端的R1模型还有些问题,比如不擅长搜索、简单问题也会假模假样思考半天,以及最后1个问题把它搞死机了……但这毕竟只是预览版,大概16B参数。而正式版有200B参数,目前还在优化中,等待推出。
关键是!正式版R1模型推出后,将完全开源!
好!好!好!DeepSeek牛逼!
本文,完。觉得本篇文章不错的,记得随手点个赞、收藏和转发三连,感谢感谢~如果想第一时间收到推送,请记得关注我们⭐~
来源:AIGC研究社一点号