大实话！ Deepseek 那么神，跟 ChatGPT-o1 比，智商还差…

摘要：最近啊，这个 Deepseek 霸榜科技榜好几天了，“国产最强AI”、“挑战OpenAI霸主地位”，感觉好像一夜之间，中国AI就要弯道超车，把美国佬甩几条街了。

最近啊，这个 Deepseek 霸榜科技榜好几天了，“国产最强AI”、“挑战OpenAI霸主地位”，感觉好像一夜之间，中国AI就要弯道超车，把美国佬甩几条街了。

股市也跟着激动，美国那边科技股还跌了，说是怕中国AI崛起抢饭碗。

但咱搞技术的，不能光听着热闹，得撸起袖子，自己上手试试才知道，到底是不是真金！

这不，我就仔仔细细研究了下最近出来的各种 Deepseek 的评测，尤其是看到有人拿它跟 OpenAI 的 ChatGPT-o1 比，还做了智商测试，我就更来劲了！

大模型智商和满意度评测结果

上图中，最右侧智商最高。中间蓝色部分是用户的满意度。

说实话，看完测试结果，人家老外直接说了大实话： China's Deepseek is NOT as smart as ChatGPT-o1 （中国的 Deepseek 没 ChatGPT-o1 那么智能！）

这话听着可能有点刺耳，但我觉得人家说的是大实话，咱得承认差距，不能光活在“厉害了我的国”的自我陶醉里。

人家 TrackingAI.org 这个网站，专门搞AI智商评测的，挺专业的。他们就做了个测试，用的是门萨挪威的智商测试题，还搞了在线和离线两种。

先说在线测试吧，结果是啥呢？

Deepseek 的几个模型，跟市面上那些免费的 AI 模型，像 Claude、免费版的 ChatGPT-4o、Gemini Advanced，打了个平手，甚至有的还稍微领先一点。 你看，成绩单在这儿：

Deepseek 的两个模型都与所有其他免费AI 持平或超越，包括 Claude、ChatGPT-4o 和 Gemini Advanced。

为了防止 AI “作弊”，提前把答案背下来，人家专门搞了 网上搜不到的全新智商题。这下，那些“背题型”的 AI 就露馅了。

结果呢？ Deepseek 推理能力更强的 R1 模型，在离线测试里，分数是上去了，但还是比不过 OpenAI 的付费模型！ 成绩单在这儿：

对于仅存在于离线的智商问题，Deepseek R1 击败了所有免费模型，但落后于 OpenAI 的付费模型

人家直接点名了： Deepseek 在智能方面，顶多也就跟 OpenAI 的免费产品一个水平！

Deepseek only matches OpenAI's FREE products in intelligence

这话够直白了吧？翻译成人话就是： Deepseek 跟 OpenAI 的 “丐版” 产品差不多，但跟人家 “Pro版”、“Plus版” 那些真金白银砸出来的模型，还差点意思了！

当然，我不是要全盘否定 Deepseek。 人家能在免费模型里做到领先，也挺不容易了。毕竟，中国AI能追到这个程度，已经很厉害了。

Deepseek 跟 ChatGPT-o1 这种顶尖水平，确实还有差距，而且差距还挺明显。

最后，人家还提了个很有意思的点：用户满意度跟智商不是完全划等号的。

在 Chatbot Arena 那个用户投票的排行榜里，Deepseek R1 的智商明明更高，但用户满意度却不如 Gemini 和免费版的 ChatGPT-4o。

为啥？因为用户体验这玩意儿，不光看智商，还得看 “情商”！ 比如， Gemini 和 ChatGPT-4o 可能更会聊天，更懂用户的心思，回答问题更接地气、更人性化。

这就好比啥呢？人家老外打了个比方，我觉得特形象：

智商为 110 的高中校长的答案评分可能比智商为 140 的物理教授高得多。

高中校长智商没教授高，但人家更懂怎么跟人沟通啊！回答问题更贴心，用户自然更满意！

所以，总结一下我的看法：

Deepseek 确实进步很大，在国内AI里确实不错的了。但跟 ChatGPT-o1 比，尤其跟人家付费模型比，智能上还有明显差距。用户满意度和模型智商不是一回事儿。 用户体验很重要，但如果真想搞出牛逼的AI， “原始智能”才是王道！ 想用AI搞新药、搞科技革命，光会聊天是不够的，还得真有“脑子”才行！

最后，问大家个问题：你觉得 AI 的“智商” 和 “情商”，哪个更重要？评论区聊聊你的看法！

来源：物联全栈123

标签： gemini 智商 deepseek

本文地址：https://news.43u.com.cn/a/591877.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!