摘要:就在OpenAI的GPT系列持续引领行业,Anthropic的Claude频频以高性价比出圈的当下,一家被戏称为“AI界拼多多”的公司——深度求索,悄然发布了他们的新作:DeepSeek V3。
麻木尔 霍元甲 发自 AI星舰指挥中心
AI圈又迎来一个重磅消息!
就在OpenAI的GPT系列持续引领行业,Anthropic的Claude频频以高性价比出圈的当下,一家被戏称为“AI界拼多多”的公司——深度求索,悄然发布了他们的新作:DeepSeek V3。
提到DeepSeek,圈内人的第一反应大概就是“便宜”了。
在其他大模型动辄上亿美元的训练成本面前,V3仅需百万级美元的投入着实令人惊讶。
不过,如果你以为这是个用低价换质量的产品,那可就大错特错了——DeepSeek V3的实力,可远不止“价格实惠”这么简单。
价格屠夫,但是肌肉亮眼
让我们先来看看最关心的价格问题。
虽然DeepSeek V3的API价格较前代确实有所上调,但依然保持着惊人的性价比
数据显示,它的价格仅为Claude 3.5 Sonnet的2%左右。
换句话说,同样的预算下,你在V3这里能完成的任务量,比用其他主流大模型要多得多。对于那些既要效率又要控制成本的用户来说,这个诱惑可不小。
当然,低价不过是锦上添花,关键还得看“疗效”。
DeepSeek官方给出的性能benchmark,可谓是相当亮眼:
数学能力:在MATH 500和AIME 2024中,V3的成绩大幅领先Claude 3.5 Sonnet和GPT-4o,直接拉开了10分以上的差距。这可不是小打小闹,这意味着V3在数学推理和问题解决能力方面,有着“开挂”般的表现。
代码能力:在Codeforces基准中刷新了SOTA,比国外主流大模型高出约30分!程序员狂喜有没有!
这样的成绩,让不少人大呼“国产之光”。
要知道,V3的实际参与运算的参数只有Qwen2.5的一半,但在关键能力上却能全面超越。
即使面对参数量远超自己的LLaMA-3.1 405B,V3也毫不逊色。
那么,这个“平价”模型在实测过程中到底能打出多少分?看看结果。
榜单战神,还是真的能打?
日常任务实测:联网搜索+解读能力
官网界面非常简洁。
只有“深度思考”、“联网搜索”、“上传文件”和“发送”四个按钮。
支持联网搜索,但“深度思考”和“联网搜索”不能同时开启,这在一定程度上限制了使用场景。
首先先测试一下联网搜索能力。
当我们要求它整理最近的OpenAI相关新闻时,V3不负众望地给出了很有条理的陈述。
不是简单的新闻堆砌,而是分类明确、逻辑清晰的信息整理,可以看到引用的新闻源确实也是最近的
再来测试一下它对复杂文档的理解能力。
我们上传了一份段永平在浙大师生见面会的对话记录,询问其中关于黄峥的评价。
V3准确提取了相关信息,而且能结合上下文给出深入的解读,解读的相当到位。
专业能力实测:逻辑推理+代码开发
我们先来一道经典的逻辑题。
这个题是有一些歧义存在的,但可以看到V3不仅察觉到了“应该”这个词的歧义,成功想到了两种意思分别对应的结果,还意识到应该让出题者修正题目中出现的歧义。
既然如此,让我们来修改一下题目:
漂亮的逻辑,完美的答案。
接下来让我们来试试编程题,毕竟咱们评测AI,还是为了找到生产力工具。
几乎是立刻写出来了,速度真的很快,代码也很工整。
看一下运行的效果,来个“9+9”吧。
效果也很好。
情商实测:AI界的直男?
当然,我们也不能只看“高光时刻”。
江湖上一直流传着V3“情商欠费”的传说,让我们来验证一下是否属实。
先来个经典的“1~100选个数”好了!
传言不虚。。可以说是相当“直男”了。
开个玩笑,也可能是V3对我们不感兴趣。
不过,最近我正好在参加“舔狗挑战赛”,于是决定干脆选两道赛题上来看看它会怎么答。
本题的得分点有3处,自然切入+展示价值+提一个大佬熟悉领域的有价值的问题。
来看一下V3的回答:
### 2. **自然地开启对话**- **赞美与肯定**:以真诚的赞美开头,例如:“我一直很欣赏您在XX领域的贡献,特别是您最近关于XX的演讲/著作,给我很大的启发。” 这种开场白不仅表达了你的敬意,也显示你对他工作的深入了解。- **提出问题**:接着,可以提出一个具体而有深度的问题,例如:“您认为当前行业面临的最大挑战是什么?” 或者 “您是怎么看待XX趋势的?” 这样的问题不仅能引发对方的思考,也能让你展示出你对该领域的理解。
### 3. **倾听与互动**- **积极倾听**:在对方回答时,全神贯注地倾听,不要只想着接下来要说什么。通过点头、微笑等非语言方式表示你在认真听,并在适当的时候提出跟进问题或分享你的看法。- **分享自己的观点**:在对话中适度分享你的观点,但不要喧宾夺主。例如:“我最近也在研究这个问题,发现XX,不知道您怎么看?” 这样既能展示你的见解,又保持了对话的平衡.
### 4. **建立联系**- **自然过渡到个人背景**:在对话进行到一定程度后,可以自然地提及你的工作或研究领域,但避免直接推销自己或提出具体的合作请求。例如:“我在XX公司负责XX方面的工作,也很希望能在未来有机会向您学习。”- **交换联系方式**:如果对话进行得比较顺利,可以顺势提出交换联系方式,例如:“不知道您是否有空,我非常希望能继续向您请教,不知道能否加您的微信/LinkedIn?” 如果对方同意,记得表达感谢。
### 5. **结束对话**- **表达感谢**:在对话结束时,再次表达对对方时间的感谢,并重申你对他的敬意。例如:“非常感谢您抽空和我交流,今天聊得很愉快,期待未来能有更多的交流机会。”- **保持自然**:如果对话时间较长,可以自然地结束,并表示希望未来能再次见面。不要强行延长对话,让对方感到不适。
### 6. **后续跟进**- **发送感谢信息**:在活动结束后,可以通过邮件或社交媒体发送一条简短的感谢信息,再次表达你对他的敬意,并提及你们谈话中的一些关键点。例如:“刚才和您聊得很愉快,特别是您提到的XX观点,让我受益匪浅,希望未来能继续向您学习。”- **保持联系**:在适当的时候,可以通过分享对方感兴趣的内容或行业动态来保持联系,但不要过于频繁,以免显得过于功利。通过以上步骤,你可以在不显得过于功利的前提下,与仰慕的大佬建立联系,并留下深刻的印象。关键在于真诚、自然和适度,让对方感受到你的敬意和诚意,而不是单纯的功利目的。
大约覆盖了2个得分点,好像还可以?再来测一题。
这是一道销售类的题目,得分点是:认可客户的顾虑+直接问顾虑的核心原因+解决这个顾虑(如果解决不了,那他就是不能被成交的客户)
看看V3的回答:
中规中矩。
正如传言所述,DeepSeekV3在情商方面确实还有很大的提升空间。
它的回答非常理性,条理感十足,但似乎缺乏一些对人类情感的关注。
当然,这或许也和它的模型设计理念有关。
适合哪些应用场景?
从实测结果来看,DeepSeek V3的应用场景主要集中在以下几个方面:
特别擅长:编程、数学、逻辑推理等领域
非常适合需要处理复杂问题和进行深度分析的用户。例如:辅助程序员高效开发代码,帮助科研人员进行数据分析和建模等。
当然,V3也并非完美。在多模态能力方面,它还有待加强。如果你需要进行图片生成、视频创作等任务,可能还需要借助其他工具。
对比其他大模型,V3最大的特点就是极致的性价比。它用更低的成本,实现了比肩甚至超越一些头部模型的性能。这对于预算有限,但又对模型能力有较高要求的用户来说,无疑是一个非常理想的选择。
欢迎在评论区分享你对V3的使用体验!你的反馈和分享,将帮助更多人了解这款高性价比的国产AI模型。
来源:AIStarship