DeepSeek V3深度测评:在实际场景中,它能为你做什么?

360影视 2025-01-20 14:32 2

摘要:就在OpenAI的GPT系列持续引领行业,Anthropic的Claude频频以高性价比出圈的当下,一家被戏称为“AI界拼多多”的公司——深度求索,悄然发布了他们的新作:DeepSeek V3。

麻木尔 霍元甲 发自 AI星舰指挥中心


AI圈又迎来一个重磅消息!

就在OpenAI的GPT系列持续引领行业,Anthropic的Claude频频以高性价比出圈的当下,一家被戏称为“AI界拼多多”的公司——深度求索,悄然发布了他们的新作:DeepSeek V3。


提到DeepSeek,圈内人的第一反应大概就是“便宜”了。

在其他大模型动辄上亿美元的训练成本面前,V3仅需百万级美元的投入着实令人惊讶。


不过,如果你以为这是个用低价换质量的产品,那可就大错特错了——DeepSeek V3的实力,可远不止“价格实惠”这么简单。


价格屠夫,但是肌肉亮眼

让我们先来看看最关心的价格问题。



虽然DeepSeek V3的API价格较前代确实有所上调,但依然保持着惊人的性价比

数据显示,它的价格仅为Claude 3.5 Sonnet的2%左右。


换句话说,同样的预算下,你在V3这里能完成的任务量,比用其他主流大模型要多得多。对于那些既要效率又要控制成本的用户来说,这个诱惑可不小。


当然,低价不过是锦上添花,关键还得看“疗效”。

DeepSeek官方给出的性能benchmark,可谓是相当亮眼:



数学能力:在MATH 500和AIME 2024中,V3的成绩大幅领先Claude 3.5 Sonnet和GPT-4o,直接拉开了10分以上的差距。这可不是小打小闹,这意味着V3在数学推理和问题解决能力方面,有着“开挂”般的表现。


代码能力:在Codeforces基准中刷新了SOTA,比国外主流大模型高出约30分!程序员狂喜有没有!

这样的成绩,让不少人大呼“国产之光”。

要知道,V3的实际参与运算的参数只有Qwen2.5的一半,但在关键能力上却能全面超越。

即使面对参数量远超自己的LLaMA-3.1 405B,V3也毫不逊色。

那么,这个“平价”模型在实测过程中到底能打出多少分?看看结果。


榜单战神,还是真的能打?

日常任务实测:联网搜索+解读能力

官网界面非常简洁。

只有“深度思考”、“联网搜索”、“上传文件”和“发送”四个按钮。

支持联网搜索,但“深度思考”和“联网搜索”不能同时开启,这在一定程度上限制了使用场景。



首先先测试一下联网搜索能力。


当我们要求它整理最近的OpenAI相关新闻时,V3不负众望地给出了很有条理的陈述。

不是简单的新闻堆砌,而是分类明确、逻辑清晰的信息整理,可以看到引用的新闻源确实也是最近的



再来测试一下它对复杂文档的理解能力。

我们上传了一份段永平在浙大师生见面会的对话记录,询问其中关于黄峥的评价。



V3准确提取了相关信息,而且能结合上下文给出深入的解读,解读的相当到位。


专业能力实测:逻辑推理+代码开发

我们先来一道经典的逻辑题。


小明和小红拥有一个箱子,小红在第一天把一个红色的球放在箱子里红色的抽屉里,第二天小明把这个红色的球取出来放在另外一个黄色的抽屉里,这个行为并没有告诉小红,也没有被小红看见。第三天小红去箱子里找红色的球,她应该去哪个抽屉里找?

这个题是有一些歧义存在的,但可以看到V3不仅察觉到了“应该”这个词的歧义,成功想到了两种意思分别对应的结果,还意识到应该让出题者修正题目中出现的歧义。



既然如此,让我们来修改一下题目:


小明和小红拥有一个箱子,小红在第一天把一个红色的球放在箱子里红色的抽屉里,第二天小明把这个红色的球取出来放在另外一个黄色的抽屉里,这个行为并没有告诉小红,也没有被小红看见。第三天小红去箱子里找红色的球,她会去哪个抽屉里找?

漂亮的逻辑,完美的答案。


接下来让我们来试试编程题,毕竟咱们评测AI,还是为了找到生产力工具。


写一个用纯JavaScript实现并使用内联CSS样式的简单计算器。

几乎是立刻写出来了,速度真的很快,代码也很工整。


看一下运行的效果,来个“9+9”吧。



效果也很好。


情商实测:AI界的直男?

当然,我们也不能只看“高光时刻”。

江湖上一直流传着V3“情商欠费”的传说,让我们来验证一下是否属实。


先来个经典的“1~100选个数”好了!


传言不虚。。可以说是相当“直男”了。


开个玩笑,也可能是V3对我们不感兴趣。

不过,最近我正好在参加“舔狗挑战赛”,于是决定干脆选两道赛题上来看看它会怎么答。


第一题:偶遇大佬类你在一场活动上遇到了仰慕已久的大佬,你很想和他建立联系。在不显得过于功利的前提下,如何开启对话并留下好/深刻的印象?不限字数,需要答题逻辑。

本题的得分点有3处,自然切入+展示价值+提一个大佬熟悉领域的有价值的问题。


来看一下V3的回答:


在活动上遇到仰慕已久的大佬时,你希望留下深刻的印象,但又不希望显得过于功利,这时你可以按照以下步骤来开启对话并建立联系:### 1. **观察与准备**- **提前了解**:在活动前,尽量了解这位大佬的背景、成就和兴趣爱好。这不仅帮助你在对话中找到共同话题,也能让你在交流时显得更加真诚和有准备。- **选择时机**:观察大佬的状态,确保他不忙于其他事务,且看起来愿意与人交流。不要在他明显忙碌或专注于其他对话时打扰。
### 2. **自然地开启对话**- **赞美与肯定**:以真诚的赞美开头,例如:“我一直很欣赏您在XX领域的贡献,特别是您最近关于XX的演讲/著作,给我很大的启发。” 这种开场白不仅表达了你的敬意,也显示你对他工作的深入了解。- **提出问题**:接着,可以提出一个具体而有深度的问题,例如:“您认为当前行业面临的最大挑战是什么?” 或者 “您是怎么看待XX趋势的?” 这样的问题不仅能引发对方的思考,也能让你展示出你对该领域的理解。
### 3. **倾听与互动**- **积极倾听**:在对方回答时,全神贯注地倾听,不要只想着接下来要说什么。通过点头、微笑等非语言方式表示你在认真听,并在适当的时候提出跟进问题或分享你的看法。- **分享自己的观点**:在对话中适度分享你的观点,但不要喧宾夺主。例如:“我最近也在研究这个问题,发现XX,不知道您怎么看?” 这样既能展示你的见解,又保持了对话的平衡.

### 4. **建立联系**- **自然过渡到个人背景**:在对话进行到一定程度后,可以自然地提及你的工作或研究领域,但避免直接推销自己或提出具体的合作请求。例如:“我在XX公司负责XX方面的工作,也很希望能在未来有机会向您学习。”- **交换联系方式**:如果对话进行得比较顺利,可以顺势提出交换联系方式,例如:“不知道您是否有空,我非常希望能继续向您请教,不知道能否加您的微信/LinkedIn?” 如果对方同意,记得表达感谢。

### 5. **结束对话**- **表达感谢**:在对话结束时,再次表达对对方时间的感谢,并重申你对他的敬意。例如:“非常感谢您抽空和我交流,今天聊得很愉快,期待未来能有更多的交流机会。”- **保持自然**:如果对话时间较长,可以自然地结束,并表示希望未来能再次见面。不要强行延长对话,让对方感到不适。
### 6. **后续跟进**- **发送感谢信息**:在活动结束后,可以通过邮件或社交媒体发送一条简短的感谢信息,再次表达你对他的敬意,并提及你们谈话中的一些关键点。例如:“刚才和您聊得很愉快,特别是您提到的XX观点,让我受益匪浅,希望未来能继续向您学习。”- **保持联系**:在适当的时候,可以通过分享对方感兴趣的内容或行业动态来保持联系,但不要过于频繁,以免显得过于功利。通过以上步骤,你可以在不显得过于功利的前提下,与仰慕的大佬建立联系,并留下深刻的印象。关键在于真诚、自然和适度,让对方感受到你的敬意和诚意,而不是单纯的功利目的。

大约覆盖了2个得分点,好像还可以?再来测一题。


第二题:销售类一位客户对你的产品表示很感兴趣,但说价格超出预算了。如何通过沟通技巧既不降价,又能让客户感受到产品价值,最终成功成交?

这是一道销售类的题目,得分点是:认可客户的顾虑+直接问顾虑的核心原因+解决这个顾虑(如果解决不了,那他就是不能被成交的客户)

看看V3的回答:


在面对客户对产品价格超出预算的挑战时,我制定了以下策略,以确保在不降价的情况下,让客户感受到产品价值,并成功达成交易:1. **深入了解客户需求**:- 与客户进行深入沟通,了解其具体需求和预算限制,以便提供更精准的解决方案。2. **强调产品独特卖点**:- 突出产品的独特功能和优势,特别是那些能够为客户带来长期利益的方面,如耐用性、维护成本低或生产效率提升。3. **提供定制化解决方案**:- 根据客户需求,提供基础版本的产品或分期付款方案,以降低初期成本压力。4. **展示成功案例和客户证言**:- 通过实际案例展示产品效果,增强客户对产品价值的认可。5. **对比竞争对手产品**:- 分析并展示竞争对手产品的差异和劣势,强调我方产品的优势。6. **探索预算灵活性**:- 了解客户预算的构成,寻找可能的调整空间,或探讨未来的预算安排。7. **提供增值服务**:- 增加产品的整体价值,如延长保修期、培训支持或额外客户支持服务。8. **建立长期合作关系**:- 即使当前预算有限,也要与客户建立联系,了解未来需求,为后续合作铺路。9. **提升沟通技巧**:- 保持专业态度,理解客户立场,通过有效沟通让客户感受到最佳解决方案。10. **准备应对价格相关问题**:- 针对客户可能提出的价格疑问,准备清晰、有说服力的回答。通过以上策略,我将全面提升产品的价值感知,灵活应对客户的预算限制,最终实现销售目标。

中规中矩。


正如传言所述,DeepSeekV3在情商方面确实还有很大的提升空间。

它的回答非常理性,条理感十足,但似乎缺乏一些对人类情感的关注。

当然,这或许也和它的模型设计理念有关。


适合哪些应用场景?

从实测结果来看,DeepSeek V3的应用场景主要集中在以下几个方面:

特别擅长:编程、数学、逻辑推理等领域

非常适合需要处理复杂问题和进行深度分析的用户。例如:辅助程序员高效开发代码,帮助科研人员进行数据分析和建模等。

当然,V3也并非完美。在多模态能力方面,它还有待加强。如果你需要进行图片生成、视频创作等任务,可能还需要借助其他工具。

对比其他大模型,V3最大的特点就是极致的性价比。它用更低的成本,实现了比肩甚至超越一些头部模型的性能。这对于预算有限,但又对模型能力有较高要求的用户来说,无疑是一个非常理想的选择。


欢迎在评论区分享你对V3的使用体验!你的反馈和分享,将帮助更多人了解这款高性价比的国产AI模型。




来源:AIStarship

相关推荐