DeepSeek与主流AI模型对比评测

360影视 2025-02-02 13:05 2

摘要:据悉,来自杭州的初创企业深度求索1月20日发布DeepSeek-R1,该模型在测试表现、训练成本和开源开放程度等多个基准测试中均超越“ChatGPT之父”美国OpenAI公司的最新模型o1,但成本仅为o1的三十分之一。

最近几天,中国低成本大语言模型深度求索(DeepSeek)欧美AI圈引起了不小的震动。

据悉,来自杭州的初创企业深度求索1月20日发布DeepSeek-R1,该模型在测试表现、训练成本和开源开放程度等多个基准测试中均超越“ChatGPT之父”美国OpenAI公司的最新模型o1,但成本仅为o1的三十分之一。

纽约时报报道称,DeepSeek大模型以极低成本(600万美元)和少量芯片(2000块)实现了与OpenAI等巨头相媲美的性能,挑战了“唯有科技巨头才能研发尖端AI”的行业共识。

这一消息激起投资者的恐慌情绪,纷纷抛售美国科技股,导致美国人工智能巨头英伟达股价在1月27日暴跌近16%,市值蒸发近6000亿美元。

那么,这款AI大语言模型究竟实力如何?与其他AI聊天机器人相比又有哪些优势和差异?接下来,我对相关产品进行了一些简单的评测。

一、自然语言生成测试

评估目标是测试AI是否能够提供富有创意的答案,尤其是对于开放性问题。

我先测试了一个很简单的例子:“仿照《权力的游戏》里丹妮莉丝·坦格利安的称号,编一个特朗普的称号”。

DeepSeek R1给出的答案是:

唐纳德·特朗普

推特风暴之王,高墙铸造者,七海关税之主;

不羁金发的咆哮者,破产与复兴的凤凰,红领带之怒;

弹劾浪潮中的幸存者,诉讼迷宫中的舞者,真相的弹性诠释者;

自由世界的退群者,高尔夫球场领主,玛阿拉歌冬宫守护者。

ChatGPT给出的答案是:

美国的救世主,墙之建造者;

商业帝国之王,民众的声音;

白宫的统治者,现实之破坏者;

大国之骄傲,外交之火焰;

推特的君王,全球的震撼者。

从语言的艺术性、现实性、以及中文环境的语感上看,在这个问题上,DeepSeek在中文环境下的确比ChatGPT要胜出一筹。

于是我又测试的另一个题目:“使用一些口诀来总结罗斯的七个鲜见义务”

忠诚守信诺如山,补偿旧过莫迟延。

感恩图报情义显,公正无私天平端。

仁慈助人善举传,自我精进德才兼。

不行恶事守底线,七责权衡在心间。

逐句解析:

忠诚守信诺如山 → 强调信守承诺(忠诚)。

补偿旧过莫迟延 → 对过错及时弥补(补偿)。

感恩图报情义显 → 铭记并回报恩情(感恩)。

公正无私天平端 → 公平对待他人(公正)。

仁慈助人善举传 → 主动行善助人(仁慈)。

自我精进德才兼 → 提升自身品德与能力(自我改进)。

不行恶事守底线 → 避免伤害他人(不行恶)。

七责权衡在心间 → 总结需根据情境权衡义务。

ChatGPT给出的答案是:

一诺千金守信约,过错补偿不推脱。

公平正义分利益,感恩回报记心窝。

扶危济困行善举,自强修身志更卓。

谨言慎行伤害避,责任担当不可缩。

逐句解析:

守信(Fidelity)—— 强调履行承诺和诚信。

补偿(Reparation)—— 体现弥补过失的责任。

公正(Justice)—— 体现公平分配利益和责任。

感恩(Gratitude)—— 强调回报他人的善意。

行善(Beneficence)—— 代表帮助他人,促进福祉。

自强(Self-improvement)—— 表达不断提升道德和智慧。

不伤害(Non-maleficence)—— 体现避免对他人造成损害。

责任(Duties)—— 强调履行应尽的义务。

在这个问题上,DeepSeek编写的口诀和ChatGPT也相差无几。

我又连续测试了几个较为开放性的问题,主要来自流行电视剧,例如:

1、《绝命毒师》第三季第二集里,沃尔特·怀特为什么要激烈冒犯给他开罚单的交警?

2、《绝命毒师》第四季第一集里,古斯为什么要当众杀死维克多?

3、《绝命毒师》第二季第十三集,沃尔特·怀特在杰西·平克曼的女友死亡的那个晚上,为什么眼睁睁地看着杰西的女友简窒息而死?

从上面几个问题回答的内容质量上看,DeepSeek R1的内容生成能力和ChatGPT不相上下,各有千秋。

可以说,DeepSeek性能的确不错,在中文表达上也颇有特色,但生产出来的东西也没有达到碾压其他产品的地步。

二、逻辑推理能力测试

推理是数学的基本思维方式,也是人们学习和生活中经常使用的思维方式,要测试AI模型的逻辑推理能力,我觉得比较有效的方法是,找几套国际数学奥林匹克竞赛试题,或者类似的国际数学竞赛试题,给各个AI模型去做,谁的分数高,谁的能力就强。

根据实用主义原则,有用便是真理,能正确给出答案的就是好AI。

不过,这方面我比较缺少时间和资源,我就只找了几道数学推理题,给各个AI提问,看看哪个是能给出正确答案的AI。

题目一:松鼠A、B、C共同拥有一定数量的松果。起初,松鼠A拥有26颗松果,它慷慨地拿出10颗来平均分给B和C。接着,松鼠B也拿出自己原有的18颗松果,同样平均分给了A和C。最后,松鼠C决定将其现有的松果的一半平分给A和B。经过这一系列操作后,三只松鼠的松果数量变得一致。那么,请问松鼠C最初拥有多少颗松果呢?

这道题正确答案是86。

回答正确的AI大模型有:DeepSeek、ChatGPT,Copilot、百度文心一言、通义千问、豆包。

其余AI大模型,包括Kimi、智谱清言、天工AI、讯飞、Google Gemini、Meta AI等等均回答错误。

题目二:有位渔夫,头戴一顶大草帽,坐在划艇上在一条河中钓鱼。河水的流动速度是每小时3英里,他的划艇以同样的速度顺流而下。当他开始向上游划行时,一阵风把他的草帽吹落到船旁的水中。渔夫并没有注意到草帽丢了,继续向上游划行。直到他划行到船与草帽相距5英里的时候,他才发觉这一点。于是他立即掉转船头,向下游划去,最终追上了草帽。在静水中,渔夫划行的速度总是每小时5英里。如果渔夫是在下午2时丢失草帽的,那么他找回草帽是在什么时候?

正确答案是,渔夫在下午4时找回了草帽。

回答正确的AI大模型有:DeepSeek、豆包、Kimi、Google Gemini

其余AI大模型,包括百度文心一言、通义千问、ChatGPT、Copilot、Meta AI等等均回答错误。

题目三:几位同学假期组成一个小组去某市旅游,该市有6座塔,它们的位置分别为A,B,C,D,E,F。同学们自由行动一段时间后,每位同学都发现,自己在所在的位置只能看到位于A,B,C,D处的四座塔,而看不到位于E和F的塔,已知:(1)同学们的位置和塔的位置均视为同一平面上的点,且这些点彼此不重合;(2)A,B,C,D,E,F中任意3点不共线;(3)看不到塔的唯一可能就是视线被其它的塔所阻挡,例如,如果某位同学所在的位置P和A,B共线,且A在线段PB上,那么该同学就看不到位于B处的塔。请问,这个旅游小组最多可能有多少名同学?

正确答案是6名。

但是没有一个AI大模型给出正确的答案。

根据这几道题的初步判断,DeepSeek R1在逻辑推理能力方面处于前列。有资源的同学可以多找一些试卷测试,估计会有更准的结果。

三、代码编程能力测试

这个测试时用AI生成一段代码,然后看看代码运行是否正确。

我测试的问题是:给出一个VB6编写计算PI的源程序代码。

DeepSeek给出了一个在标准VB6环境中运行的VB代码,可在瞬间计算出精确到小数点后14位的圆周率值,该数值和正确的圆周率值一致。

不过,当我要求圆周率的精度要求至少100位,DeepSeek给出VB代码运行出现死锁,无法得出答案。

总结

在这一系列简单的测试,DeepSeek-V3性能一般,但DeepSeek-R1的表现非常出色,其在中文创意写作领域令人难忘,展现出令人惊讶的效果,不过,在专业技术问题的解决方面,DeepSeek也没有达到碾压其他AI产品的地步,做为AI领域的新秀,DeepSeek的出现,为AI聊天机器人市场注入了新的活力,也为用户提供了更多的选择。

未来,DeepSeek应该持续优化用户体验,解决技术上的缺陷,提升模型的深度与广度,那样才能巩固其在市场中的地位。

来源:走进科技生活

相关推荐