摘要:最近啊,这个 Deepseek 霸榜科技榜好几天了,“国产最强AI”、“挑战OpenAI霸主地位”,感觉好像一夜之间,中国AI就要弯道超车,把美国佬甩几条街了。
最近啊,这个 Deepseek 霸榜科技榜好几天了,“国产最强AI”、“挑战OpenAI霸主地位”,感觉好像一夜之间,中国AI就要弯道超车,把美国佬甩几条街了。
股市也跟着激动,美国那边科技股还跌了,说是怕中国AI崛起抢饭碗。
但咱搞技术的,不能光听着热闹,得撸起袖子,自己上手试试才知道,到底是不是真金!
这不,我就仔仔细细研究了下最近出来的各种 Deepseek 的评测,尤其是看到有人拿它跟 OpenAI 的 ChatGPT-o1 比,还做了智商测试,我就更来劲了!
大模型智商和满意度评测结果
上图中,最右侧智商最高。中间蓝色部分是用户的满意度。
说实话,看完测试结果,人家老外直接说了大实话: China's Deepseek is NOT as smart as ChatGPT-o1 (中国的 Deepseek 没 ChatGPT-o1 那么智能!)
这话听着可能有点刺耳,但我觉得人家说的是大实话,咱得承认差距,不能光活在“厉害了我的国”的自我陶醉里。
人家 TrackingAI.org 这个网站,专门搞AI智商评测的,挺专业的。 他们就做了个测试,用的是门萨挪威的智商测试题,还搞了在线和离线两种。
先说在线测试吧,结果是啥呢?
Deepseek 的几个模型,跟市面上那些 免费 的 AI 模型,像 Claude、免费版的 ChatGPT-4o、Gemini Advanced,打了个平手,甚至有的还稍微领先一点。 你看,成绩单在这儿:
Deepseek 的两个模型都与所有其他免费AI 持平或超越,包括 Claude、ChatGPT-4o 和 Gemini Advanced。
为了防止 AI “作弊”,提前把答案背下来,人家专门搞了 网上搜不到的全新智商题。 这下,那些“背题型”的 AI 就露馅了。
结果呢? Deepseek 推理能力更强的 R1 模型,在离线测试里,分数是上去了,但还是比不过 OpenAI 的付费模型! 成绩单在这儿:
对于仅存在于离线的智商问题,Deepseek R1 击败了所有免费模型,但落后于 OpenAI 的付费模型
人家直接点名了: Deepseek 在智能方面,顶多也就跟 OpenAI 的免费产品一个水平!
Deepseek only matches OpenAI's FREE products in intelligence
这话够直白了吧? 翻译成人话就是: Deepseek 跟 OpenAI 的 “丐版” 产品差不多,但跟人家 “Pro版”、“Plus版” 那些真金白银砸出来的模型,还差点意思了!
当然,我不是要全盘否定 Deepseek。 人家能在免费模型里做到领先,也挺不容易了。 毕竟,中国AI能追到这个程度,已经很厉害了。
Deepseek 跟 ChatGPT-o1 这种顶尖水平,确实还有差距,而且差距还挺明显。
最后,人家还提了个很有意思的点: 用户满意度 跟 智商 不是完全划等号的。
在 Chatbot Arena 那个用户投票的排行榜里,Deepseek R1 的智商明明更高,但用户满意度却不如 Gemini 和 免费版的 ChatGPT-4o。
为啥? 因为用户体验这玩意儿,不光看智商,还得看 “情商”! 比如, Gemini 和 ChatGPT-4o 可能更会聊天,更懂用户的心思,回答问题更接地气、更人性化。
这就好比啥呢? 人家老外打了个比方,我觉得特形象:
智商为 110 的高中校长的答案评分可能比智商为 140 的物理教授高得多。
高中校长智商没教授高,但人家更懂怎么跟人沟通啊! 回答问题更贴心,用户自然更满意!
所以,总结一下我的看法:
Deepseek 确实进步很大,在国内AI里确实不错的了。但跟 ChatGPT-o1 比,尤其跟人家付费模型比,智能上还有明显差距。用户满意度 和 模型智商 不是一回事儿。 用户体验很重要,但如果真想搞出牛逼的AI, “原始智能”才是王道! 想用AI搞新药、搞科技革命,光会聊天是不够的,还得真有“脑子”才行!最后,问大家个问题: 你觉得 AI 的“智商” 和 “情商”,哪个更重要? 评论区聊聊你的看法!
来源:物联全栈123