DeepSeek与主流AI模型对比评测

摘要：据悉，来自杭州的初创企业深度求索1月20日发布DeepSeek-R1，该模型在测试表现、训练成本和开源开放程度等多个基准测试中均超越“ChatGPT之父”美国OpenAI公司的最新模型o1，但成本仅为o1的三十分之一。

最近几天，中国低成本大语言模型深度求索（DeepSeek）欧美AI圈引起了不小的震动。

据悉，来自杭州的初创企业深度求索1月20日发布DeepSeek-R1，该模型在测试表现、训练成本和开源开放程度等多个基准测试中均超越“ChatGPT之父”美国OpenAI公司的最新模型o1，但成本仅为o1的三十分之一。

纽约时报报道称，DeepSeek大模型以极低成本（600万美元）和少量芯片（2000块）实现了与OpenAI等巨头相媲美的性能，挑战了“唯有科技巨头才能研发尖端AI”的行业共识。

这一消息激起投资者的恐慌情绪，纷纷抛售美国科技股，导致美国人工智能巨头英伟达股价在1月27日暴跌近16%，市值蒸发近6000亿美元。

那么，这款AI大语言模型究竟实力如何？与其他AI聊天机器人相比又有哪些优势和差异？接下来，我对相关产品进行了一些简单的评测。

一、自然语言生成测试

评估目标是测试AI是否能够提供富有创意的答案，尤其是对于开放性问题。

我先测试了一个很简单的例子：“仿照《权力的游戏》里丹妮莉丝·坦格利安的称号，编一个特朗普的称号”。

DeepSeek R1给出的答案是：

唐纳德·特朗普

推特风暴之王，高墙铸造者，七海关税之主；

不羁金发的咆哮者，破产与复兴的凤凰，红领带之怒；

弹劾浪潮中的幸存者，诉讼迷宫中的舞者，真相的弹性诠释者；

自由世界的退群者，高尔夫球场领主，玛阿拉歌冬宫守护者。

ChatGPT给出的答案是：

美国的救世主，墙之建造者；

商业帝国之王，民众的声音；

白宫的统治者，现实之破坏者；

大国之骄傲，外交之火焰；

推特的君王，全球的震撼者。

从语言的艺术性、现实性、以及中文环境的语感上看，在这个问题上，DeepSeek在中文环境下的确比ChatGPT要胜出一筹。

于是我又测试的另一个题目：“使用一些口诀来总结罗斯的七个鲜见义务”

忠诚守信诺如山，补偿旧过莫迟延。

感恩图报情义显，公正无私天平端。

仁慈助人善举传，自我精进德才兼。

不行恶事守底线，七责权衡在心间。

逐句解析：

忠诚守信诺如山 → 强调信守承诺（忠诚）。

补偿旧过莫迟延 → 对过错及时弥补（补偿）。

感恩图报情义显 → 铭记并回报恩情（感恩）。

公正无私天平端 → 公平对待他人（公正）。

仁慈助人善举传 → 主动行善助人（仁慈）。

自我精进德才兼 → 提升自身品德与能力（自我改进）。

不行恶事守底线 → 避免伤害他人（不行恶）。

七责权衡在心间 → 总结需根据情境权衡义务。

ChatGPT给出的答案是：

一诺千金守信约，过错补偿不推脱。

公平正义分利益，感恩回报记心窝。

扶危济困行善举，自强修身志更卓。

谨言慎行伤害避，责任担当不可缩。

逐句解析：

守信（Fidelity）—— 强调履行承诺和诚信。

补偿（Reparation）—— 体现弥补过失的责任。

公正（Justice）—— 体现公平分配利益和责任。

感恩（Gratitude）—— 强调回报他人的善意。

行善（Beneficence）—— 代表帮助他人，促进福祉。

自强（Self-improvement）—— 表达不断提升道德和智慧。

不伤害（Non-maleficence）—— 体现避免对他人造成损害。

责任（Duties）—— 强调履行应尽的义务。

在这个问题上，DeepSeek编写的口诀和ChatGPT也相差无几。

我又连续测试了几个较为开放性的问题，主要来自流行电视剧，例如：

1、《绝命毒师》第三季第二集里，沃尔特·怀特为什么要激烈冒犯给他开罚单的交警？

2、《绝命毒师》第四季第一集里，古斯为什么要当众杀死维克多？

3、《绝命毒师》第二季第十三集，沃尔特·怀特在杰西·平克曼的女友死亡的那个晚上，为什么眼睁睁地看着杰西的女友简窒息而死？

从上面几个问题回答的内容质量上看，DeepSeek R1的内容生成能力和ChatGPT不相上下，各有千秋。

可以说，DeepSeek性能的确不错，在中文表达上也颇有特色，但生产出来的东西也没有达到碾压其他产品的地步。

二、逻辑推理能力测试

推理是数学的基本思维方式，也是人们学习和生活中经常使用的思维方式，要测试AI模型的逻辑推理能力，我觉得比较有效的方法是，找几套国际数学奥林匹克竞赛试题，或者类似的国际数学竞赛试题，给各个AI模型去做，谁的分数高，谁的能力就强。

根据实用主义原则，有用便是真理，能正确给出答案的就是好AI。

不过，这方面我比较缺少时间和资源，我就只找了几道数学推理题，给各个AI提问，看看哪个是能给出正确答案的AI。

题目一：松鼠A、B、C共同拥有一定数量的松果。起初，松鼠A拥有26颗松果，它慷慨地拿出10颗来平均分给B和C。接着，松鼠B也拿出自己原有的18颗松果，同样平均分给了A和C。最后，松鼠C决定将其现有的松果的一半平分给A和B。经过这一系列操作后，三只松鼠的松果数量变得一致。那么，请问松鼠C最初拥有多少颗松果呢？

这道题正确答案是86。

回答正确的AI大模型有：DeepSeek、ChatGPT，Copilot、百度文心一言、通义千问、豆包。

其余AI大模型，包括Kimi、智谱清言、天工AI、讯飞、Google Gemini、Meta AI等等均回答错误。

题目二：有位渔夫，头戴一顶大草帽，坐在划艇上在一条河中钓鱼。河水的流动速度是每小时3英里，他的划艇以同样的速度顺流而下。当他开始向上游划行时，一阵风把他的草帽吹落到船旁的水中。渔夫并没有注意到草帽丢了，继续向上游划行。直到他划行到船与草帽相距5英里的时候，他才发觉这一点。于是他立即掉转船头，向下游划去，最终追上了草帽。在静水中，渔夫划行的速度总是每小时5英里。如果渔夫是在下午2时丢失草帽的，那么他找回草帽是在什么时候？

正确答案是，渔夫在下午4时找回了草帽。

回答正确的AI大模型有：DeepSeek、豆包、Kimi、Google Gemini

其余AI大模型，包括百度文心一言、通义千问、ChatGPT、Copilot、Meta AI等等均回答错误。

题目三：几位同学假期组成一个小组去某市旅游，该市有6座塔，它们的位置分别为A,B,C,D,E,F。同学们自由行动一段时间后，每位同学都发现，自己在所在的位置只能看到位于A,B,C,D处的四座塔，而看不到位于E和F的塔，已知：(1)同学们的位置和塔的位置均视为同一平面上的点，且这些点彼此不重合；(2)A,B,C,D,E,F中任意3点不共线；(3)看不到塔的唯一可能就是视线被其它的塔所阻挡，例如，如果某位同学所在的位置P和A,B共线，且A在线段PB上，那么该同学就看不到位于B处的塔。请问，这个旅游小组最多可能有多少名同学?

正确答案是6名。

但是没有一个AI大模型给出正确的答案。

根据这几道题的初步判断，DeepSeek R1在逻辑推理能力方面处于前列。有资源的同学可以多找一些试卷测试，估计会有更准的结果。

三、代码编程能力测试

这个测试时用AI生成一段代码，然后看看代码运行是否正确。

我测试的问题是：给出一个VB6编写计算PI的源程序代码。

DeepSeek给出了一个在标准VB6环境中运行的VB代码，可在瞬间计算出精确到小数点后14位的圆周率值，该数值和正确的圆周率值一致。

不过，当我要求圆周率的精度要求至少100位，DeepSeek给出VB代码运行出现死锁，无法得出答案。

总结

在这一系列简单的测试，DeepSeek-V3性能一般，但DeepSeek-R1的表现非常出色，其在中文创意写作领域令人难忘，展现出令人惊讶的效果，不过，在专业技术问题的解决方面，DeepSeek也没有达到碾压其他AI产品的地步，做为AI领域的新秀，DeepSeek的出现，为AI聊天机器人市场注入了新的活力，也为用户提供了更多的选择。

未来，DeepSeek应该持续优化用户体验，解决技术上的缺陷，提升模型的深度与广度，那样才能巩固其在市场中的地位。

来源：走进科技生活

标签：模型评测 deepseek

本文地址：https://news.43u.com.cn/a/572139.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!