DeepSeek V3深度测评：在实际场景中，它能为你做什么？

摘要：就在OpenAI的GPT系列持续引领行业，Anthropic的Claude频频以高性价比出圈的当下，一家被戏称为“AI界拼多多”的公司——深度求索，悄然发布了他们的新作：DeepSeek V3。

麻木尔霍元甲发自 AI星舰指挥中心

AI圈又迎来一个重磅消息！

就在OpenAI的GPT系列持续引领行业，Anthropic的Claude频频以高性价比出圈的当下，一家被戏称为“AI界拼多多”的公司——深度求索，悄然发布了他们的新作：DeepSeek V3。

提到DeepSeek，圈内人的第一反应大概就是“便宜”了。

在其他大模型动辄上亿美元的训练成本面前，V3仅需百万级美元的投入着实令人惊讶。

不过，如果你以为这是个用低价换质量的产品，那可就大错特错了——DeepSeek V3的实力，可远不止“价格实惠”这么简单。

价格屠夫，但是肌肉亮眼

让我们先来看看最关心的价格问题。

虽然DeepSeek V3的API价格较前代确实有所上调，但依然保持着惊人的性价比

数据显示，它的价格仅为Claude 3.5 Sonnet的2%左右。

换句话说，同样的预算下，你在V3这里能完成的任务量，比用其他主流大模型要多得多。对于那些既要效率又要控制成本的用户来说，这个诱惑可不小。

当然，低价不过是锦上添花，关键还得看“疗效”。

DeepSeek官方给出的性能benchmark，可谓是相当亮眼：

数学能力：在MATH 500和AIME 2024中，V3的成绩大幅领先Claude 3.5 Sonnet和GPT-4o，直接拉开了10分以上的差距。这可不是小打小闹，这意味着V3在数学推理和问题解决能力方面，有着“开挂”般的表现。

代码能力：在Codeforces基准中刷新了SOTA，比国外主流大模型高出约30分！程序员狂喜有没有！

这样的成绩，让不少人大呼“国产之光”。

要知道，V3的实际参与运算的参数只有Qwen2.5的一半，但在关键能力上却能全面超越。

即使面对参数量远超自己的LLaMA-3.1 405B，V3也毫不逊色。

那么，这个“平价”模型在实测过程中到底能打出多少分？看看结果。

榜单战神，还是真的能打？

日常任务实测：联网搜索+解读能力

官网界面非常简洁。

只有“深度思考”、“联网搜索”、“上传文件”和“发送”四个按钮。

支持联网搜索，但“深度思考”和“联网搜索”不能同时开启，这在一定程度上限制了使用场景。

首先先测试一下联网搜索能力。

当我们要求它整理最近的OpenAI相关新闻时，V3不负众望地给出了很有条理的陈述。

不是简单的新闻堆砌，而是分类明确、逻辑清晰的信息整理，可以看到引用的新闻源确实也是最近的

再来测试一下它对复杂文档的理解能力。

我们上传了一份段永平在浙大师生见面会的对话记录，询问其中关于黄峥的评价。

V3准确提取了相关信息，而且能结合上下文给出深入的解读，解读的相当到位。

专业能力实测：逻辑推理+代码开发

我们先来一道经典的逻辑题。

小明和小红拥有一个箱子，小红在第一天把一个红色的球放在箱子里红色的抽屉里，第二天小明把这个红色的球取出来放在另外一个黄色的抽屉里，这个行为并没有告诉小红，也没有被小红看见。第三天小红去箱子里找红色的球，她应该去哪个抽屉里找？

这个题是有一些歧义存在的，但可以看到V3不仅察觉到了“应该”这个词的歧义，成功想到了两种意思分别对应的结果，还意识到应该让出题者修正题目中出现的歧义。

既然如此，让我们来修改一下题目：

小明和小红拥有一个箱子，小红在第一天把一个红色的球放在箱子里红色的抽屉里，第二天小明把这个红色的球取出来放在另外一个黄色的抽屉里，这个行为并没有告诉小红，也没有被小红看见。第三天小红去箱子里找红色的球，她会去哪个抽屉里找？

漂亮的逻辑，完美的答案。

接下来让我们来试试编程题，毕竟咱们评测AI，还是为了找到生产力工具。

写一个用纯JavaScript实现并使用内联CSS样式的简单计算器。

几乎是立刻写出来了，速度真的很快，代码也很工整。

看一下运行的效果，来个“9+9”吧。

效果也很好。

情商实测：AI界的直男？

当然，我们也不能只看“高光时刻”。

江湖上一直流传着V3“情商欠费”的传说，让我们来验证一下是否属实。

先来个经典的“1~100选个数”好了！

传言不虚。。可以说是相当“直男”了。

开个玩笑，也可能是V3对我们不感兴趣。

不过，最近我正好在参加“舔狗挑战赛”，于是决定干脆选两道赛题上来看看它会怎么答。

第一题：偶遇大佬类你在一场活动上遇到了仰慕已久的大佬，你很想和他建立联系。在不显得过于功利的前提下，如何开启对话并留下好/深刻的印象？不限字数，需要答题逻辑。

本题的得分点有3处，自然切入+展示价值+提一个大佬熟悉领域的有价值的问题。

来看一下V3的回答：

在活动上遇到仰慕已久的大佬时，你希望留下深刻的印象，但又不希望显得过于功利，这时你可以按照以下步骤来开启对话并建立联系：### 1. **观察与准备**- **提前了解**：在活动前，尽量了解这位大佬的背景、成就和兴趣爱好。这不仅帮助你在对话中找到共同话题，也能让你在交流时显得更加真诚和有准备。- **选择时机**：观察大佬的状态，确保他不忙于其他事务，且看起来愿意与人交流。不要在他明显忙碌或专注于其他对话时打扰。
### 2. **自然地开启对话**- **赞美与肯定**：以真诚的赞美开头，例如：“我一直很欣赏您在XX领域的贡献，特别是您最近关于XX的演讲/著作，给我很大的启发。” 这种开场白不仅表达了你的敬意，也显示你对他工作的深入了解。- **提出问题**：接着，可以提出一个具体而有深度的问题，例如：“您认为当前行业面临的最大挑战是什么？” 或者 “您是怎么看待XX趋势的？” 这样的问题不仅能引发对方的思考，也能让你展示出你对该领域的理解。
### 3. **倾听与互动**- **积极倾听**：在对方回答时，全神贯注地倾听，不要只想着接下来要说什么。通过点头、微笑等非语言方式表示你在认真听，并在适当的时候提出跟进问题或分享你的看法。- **分享自己的观点**：在对话中适度分享你的观点，但不要喧宾夺主。例如：“我最近也在研究这个问题，发现XX，不知道您怎么看？” 这样既能展示你的见解，又保持了对话的平衡.

### 4. **建立联系**- **自然过渡到个人背景**：在对话进行到一定程度后，可以自然地提及你的工作或研究领域，但避免直接推销自己或提出具体的合作请求。例如：“我在XX公司负责XX方面的工作，也很希望能在未来有机会向您学习。”- **交换联系方式**：如果对话进行得比较顺利，可以顺势提出交换联系方式，例如：“不知道您是否有空，我非常希望能继续向您请教，不知道能否加您的微信/LinkedIn？” 如果对方同意，记得表达感谢。

### 5. **结束对话**- **表达感谢**：在对话结束时，再次表达对对方时间的感谢，并重申你对他的敬意。例如：“非常感谢您抽空和我交流，今天聊得很愉快，期待未来能有更多的交流机会。”- **保持自然**：如果对话时间较长，可以自然地结束，并表示希望未来能再次见面。不要强行延长对话，让对方感到不适。
### 6. **后续跟进**- **发送感谢信息**：在活动结束后，可以通过邮件或社交媒体发送一条简短的感谢信息，再次表达你对他的敬意，并提及你们谈话中的一些关键点。例如：“刚才和您聊得很愉快，特别是您提到的XX观点，让我受益匪浅，希望未来能继续向您学习。”- **保持联系**：在适当的时候，可以通过分享对方感兴趣的内容或行业动态来保持联系，但不要过于频繁，以免显得过于功利。通过以上步骤，你可以在不显得过于功利的前提下，与仰慕的大佬建立联系，并留下深刻的印象。关键在于真诚、自然和适度，让对方感受到你的敬意和诚意，而不是单纯的功利目的。

大约覆盖了2个得分点，好像还可以？再来测一题。

第二题：销售类一位客户对你的产品表示很感兴趣，但说价格超出预算了。如何通过沟通技巧既不降价，又能让客户感受到产品价值，最终成功成交？

这是一道销售类的题目，得分点是：认可客户的顾虑+直接问顾虑的核心原因+解决这个顾虑（如果解决不了，那他就是不能被成交的客户）

看看V3的回答：

在面对客户对产品价格超出预算的挑战时，我制定了以下策略，以确保在不降价的情况下，让客户感受到产品价值，并成功达成交易：1. **深入了解客户需求**：- 与客户进行深入沟通，了解其具体需求和预算限制，以便提供更精准的解决方案。2. **强调产品独特卖点**：- 突出产品的独特功能和优势，特别是那些能够为客户带来长期利益的方面，如耐用性、维护成本低或生产效率提升。3. **提供定制化解决方案**：- 根据客户需求，提供基础版本的产品或分期付款方案，以降低初期成本压力。4. **展示成功案例和客户证言**：- 通过实际案例展示产品效果，增强客户对产品价值的认可。5. **对比竞争对手产品**：- 分析并展示竞争对手产品的差异和劣势，强调我方产品的优势。6. **探索预算灵活性**：- 了解客户预算的构成，寻找可能的调整空间，或探讨未来的预算安排。7. **提供增值服务**：- 增加产品的整体价值，如延长保修期、培训支持或额外客户支持服务。8. **建立长期合作关系**：- 即使当前预算有限，也要与客户建立联系，了解未来需求，为后续合作铺路。9. **提升沟通技巧**：- 保持专业态度，理解客户立场，通过有效沟通让客户感受到最佳解决方案。10. **准备应对价格相关问题**：- 针对客户可能提出的价格疑问，准备清晰、有说服力的回答。通过以上策略，我将全面提升产品的价值感知，灵活应对客户的预算限制，最终实现销售目标。

中规中矩。

正如传言所述，DeepSeekV3在情商方面确实还有很大的提升空间。

它的回答非常理性，条理感十足，但似乎缺乏一些对人类情感的关注。

当然，这或许也和它的模型设计理念有关。