摘要:“可能是个国运级别的科技成果!”游戏科学创始人、CEO,《黑神话:悟空》制作人冯骥评价DeepSeek时如此盛赞,“希望DeepSeek R1会让你对当前最先进的AI祛魅,让AI逐渐变成你生活中的水和电。太幸运了!太开心了!这样震撼的突破,来自一个纯粹的中国公
“可能是个国运级别的科技成果!”游戏科学创始人、CEO,《黑神话:悟空》制作人冯骥评价DeepSeek时如此盛赞,“希望DeepSeek R1会让你对当前最先进的AI祛魅,让AI逐渐变成你生活中的水和电。太幸运了!太开心了!这样震撼的突破,来自一个纯粹的中国公司。知识与信息平权,至此又往前迈出了坚实的一步。”
01
DeepSeek引爆全球科技圈
在2025年的科技关键词中,DeepSeek绝对能锁定一席之地。
2025年初,一家名为深度求索(DeepSeek)的中国人工智能初创公司,该公司旗下大模型DeepSeek以其突破性的技术成果和极低的成本优势,迅速成为全球科技圈的焦点。从登顶美国App Store下载榜到引发纳斯达克股市震荡,DeepSeek让原本最讲科学的IT圈喊出“神秘东方力量”的口号,CNBC更是单独为DeepSeek制作了一部长达40分钟的纪录片。
DeepSeek一度在全球140个市场的应用商店下载量榜单排名第一
去年12月DeepSeek-V3发布后,AI数据服务公司Scale AI创始人Alexander Wang就发帖称,DeepSeek-V3是中国科技界带给美国的苦涩教训。“当美国休息时,中国(科技界)在工作,以更低的成本、更快的速度和更强的实力赶上。”
不到一个月之后,今年1月20日,DeepSeek正式开源R1推理模型。据DeepSeek介绍,其最新发布的模型DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。
1月24日号,一条发布在匿名平台teamblind上的帖子疯传。一名Meta员工称,现在Meta内部因为DeepSeek的模型,已经进入恐慌模式。
这位Meta员工写道:“一切源于DeepSeek-V3的出现,它在基准测试中已经让Llama 4相形见绌。更让人难堪的是,一家‘仅用550万美元训练预算的中国公司’就做到了这一点。工程师们正在争分夺秒地分析DeepSeek,试图复制其中的一切可能技术,这绝非夸张。”英伟达高级研究科学家Jim Fan也在个人社交平台上公开发表推文表示:“我们正身处这样一个历史时刻:一家非美国公司正在延续OpenAI最初的使命——通过真正开放的前沿研究赋能全人类。看似不合常理,但最有趣的结局往往最可能成真。”
02
“技术降价”成就“屠龙术”
在DeepSeek亮相之前,AI圈一直都奉行“大力出奇迹”的游戏规则,OpenAI作为行业先行者和风向标,其自ChatGPT以来的成功让不少人认为Scale(规模)是AI领域的制胜法宝,强大算力支持的通用算法(包含模型和数据)才是AI真正进步的方向,而一旦选择了良好且通用的数据标注,良好且通用的算法,就能够找到一套通用的规律,数据越多,模型越大,效果就越好。
当这样的认知逐渐成为AI圈“公理”时,科技企业就不得不疯狂采购算力以构筑规模优势,“无底洞”般的资产投入让巨头也苦不堪言,唯有在“剩者为王”“赢家通吃”的信念下坚持巨额投入。
然而,DeepSeek的出现却打破了这一认知。
DeepSeek-V3拥有6710亿参数的自研MoE(Mixture of Experts)架构,经过14.8万亿token的预训练,在多项基准测试中表现优异,甚至超越了包括Qwen2.5-72B和Llama-3.1-405B在内的其他开源模型,与世界顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet不相上下。
单看性能,DeepSeek-V3作为大模型赛道“新人”,其上演“长江后浪推前浪”的戏码并没啥问题,事实上,真正让DeepSeek-V3刷爆科技圈的也并非性能,而是成本!
每一款大模型的诞生和成长,都离不开训练。深度求索使用英伟达H800 GPU在短短两个月内就训练出了DeepSeek-V3,仅花费了约558万美元。其训练费用相比GPT-4等大模型要少得多,据外媒估计,Meta的大模型Llama-3.1的训练投资超过了5亿美元。
这意味着DeepSeek-V3拥有极高的性价比,具体到GPU小时上的话,DeepSeek-V3训练仅需266.4万H800 GPU小时,加上上下文扩展与后训练,总计也不过278.8万GPU小时。与之对比,Llama3-405B的训练数据则高达3080万H100 GPU小时,DeepSeek-V3的训练成本优势可见一斑。这使得更多的企业和开发者能够承担起使用这一模型的成本,进一步推动了AI技术的普及和应用。
尤其是因为美国的出口管制限制,DeepSeek-V3无法使用最顶尖的NVIDIA GPU集群,但开发者们通过优化训练方法,在2048个带宽缩减版NVIDIA H800 GPU集群上实现了同样的效果。这种创新不仅展示了中国团队的技术实力,也打破了国际科技巨头对高端硬件资源的垄断。
OpenAI创始成员Karpathy甚至对此称赞道:“DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。DeepSeek-V3看起来比Llama-3-405B更强,训练消耗的算力却仅为后者的1/11。”
DeepSeek-R1 与 OpenAI 同类产品的 API 价格比较
较低的训练成本,让DeepSeek大模型能够提供极具性价比的API价格。DeepSeek-V3的正式定价为每百万输入tokens 0.5元(缓存命中)/2元(未命中),输出tokens每百万8元。
这一价格远低于市场上其他大型语言模型的API价格,而如今DeepSeek-R1API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出 tokens 16 元,虽然较V3有所上升,但DeepSeek在1月20日正式发布一系列DeepSeek-R1模型(DeepSeek-R1-Zero、DeepSeek-Rl 和DeepSeek-Rl-Distil 系列)中,DeepSeek-R1模型推理能力优异,基准测试表现与OpenAI-01-1217 相当,其API服务定价远低于OpenAI同类产品。
实现这一切的关键在于“技术降价”。
从DeepSeek V2开始,深度求索就引入MLA多头隐注意力机制,大幅降低了KV cache的大小。而DeepSeek-V3对于成本的降低主要可分为训练成本和推理成本两个方面。
在降低训练成本上,DeepSeek-V3引入了FP8混合精度训练框架,首次验证了FP8训练在超大规模模型上的可行性和有效性。通过使用低精度数据格式进行训练,加速了训练过程并减少了内存使用,从而降低了训练成本,并引入DualPipe双向流水线,通过重叠前向和后向计算与通信来减少流水线气泡,提高了训练效率。高效的跨节点通信内核利用IB和NVLink带宽,进一步减少了通信开销。
而在降低推理成本上,DeepSeek-V3采用了混合专家模型(MoE)架构,每个专家模型只处理部分输入,提高了模型的效率和扩展性。通过优化MoE架构中的专家负载均衡,进一步降低了推理成本。MLA(Multi-Head Latent Attention)机制则通过低秩压缩减少KV缓存,提高了推理效率。这种机制减少了推理过程中的计算量,从而降低了推理成本。
03
应用落地步伐有望加速
DeepSeek因其高性价比迅速赢得了国内外众多科技巨头的青睐。
仅在2025年2月2日至4日期间,腾讯云、百度智能云和阿里云便相继宣布接入DeepSeek相关大模型,而这些云厂商在春节假期加班为深度搜索公司提供支持,进一步证明了DeepSeek的市场认可度。与此同时,海外科技巨头如微软、英伟达和亚马逊云科技等则更早一步,在2025年1月底便完成了对DeepSeek的接入。
DeepSeek的低成本和开源特性使其以3%的成本超越了OpenAI,这意味着企业可以以更低的投入训练出性能优秀的AI模型。这种优势不仅满足了客户的多样化需求,还助力云厂商构建更加完善的AI生态系统。因此,云厂商快速接入DeepSeek这一最火的大模型,无疑是一笔划算的买卖。
这些认可更多源于DeepSeek在技术路线上的突破创新,DeepSeek-R1-Zero成为首个完全摒弃监督微调(Supervised Fine-Tuning,简称 SFT)环节、完全依赖强化学习(ReinforcementLearning,简称RL)训练的大语言模型。传统上,SFT作为大模型训练的核心环节,需要先通过人工标注数据进行监督训练,再结合强化学习进行优化,这一范式曾被认为是 ChatGPT 成功的关键技术路径。
DeepSeek-R1-Zero 与 OpenAI 的 o1 模型的测试成绩比较
而DeepSeek-R1-Zero 创新性地采用纯强化学习训练框架,以 DeepSeek-V3-Base 为基础,通过群组相对策略优化(Group RelativePolicy Optimization,简称 GRPO)算法实现训练效率与模型性能的双重提升。该算法通过构建智能体群体间的相对优势评估机制,在策略优化过程中最大化群体得分,同时设计了包含准确性奖励和格式规范奖励的多维度奖励模型,确保生成内容在保持正确性的基础上具备清晰的推理逻辑。
DeepSeek-R1-Zero 在训练过程中会出现“顿悟”现象(AhaMoment),模型会自发地重新评估之前的步骤,并进行反思,即重新审视并评估之前的步骤,还会探索解决问题的替代方法,类似于人类的“灵光一现”。这种自发涌现的复杂行为,展示了纯 RL 训练的巨大潜力,也为理解 AI 的学习机制提供了新的视角。事实也证明,在具体的应用中,这些“顿悟”使得DeepSeek总能带给体验者惊喜。
04
手把手教你本地部署DeepSeek R1大模型
前面我们为大家详细介绍了Deepseek的发展历程,以及它为什么能成为整个AI行业的“转折点”,那么问题来了,作为用户的我们,该如何在自己的电脑上本地部署Deepseek搜索引擎呢?和此前的业界翘楚ChatGPT相比,两者的实战表现究竟如何呢?今天我们就来全面评估一下两者的使用体验吧。
Deepseek官网:https://www.Deepseek.com/
为了帮助大家顺利完成这次本地部署任务,需要详细了解Deepseek的部署条件。从硬件到软件,再到网络环境,每一项都至关重要,所以在本地部署之前,需要仔细核对电脑配置,确保一切准备就绪。
经过我对各方测试结果的总结,Deepseek模型本地部署的最低硬件配置建议:
内存:4GB以上。如果是实时推理或频繁调用模型,建议至少8GB内存。如果模型参数较大,可能需要更高的内存。Deeseek模型的运行需要大量的内存来存储模型参数、中间结果和数据集。不足的话会导致程序运行迟缓甚至崩溃。
显卡或处理器:Deepseek模型提供了多个版本,适合个人或小公司使用的有1.5B、7B、8B、14B、32B和70B。这些版本对应着不同的电脑配置需求。
如果电脑配置比较普通,显卡和硬盘性能都一般,甚至没有独立显卡,那么建议选择最低版本1.5B。这个版本消耗的显存只有1GB,非常适合低配置的电脑使用。
如果电脑配备了8GB显存的显卡,那么可以选择7B或8B的版本。这两个版本能够在保证性能的同时,充分利用你的显卡资源。
对于拥有12GB或16GB显存显卡的电脑来说,14B版本将是一个不错的选择。这个版本能够在处理较复杂任务时提供更好的性能。
而如果显卡显存达到了24GB,那么32B版本将能够让你体验到更强大的深度学习能力。
如果拥有40GB以上的显存,可以选择最高性能的70B版本。这个版本将为你提供前所未有的深度学习体验。
存储空间:至少50GB的硬盘空间。如果是训练大型模型,可能需要更大的存储空间(例如1TB或以上)来下载和保存模型参数、训练数据集等。Deepseek模型的运用通常涉及加载预训练模型、处理数据集以及运行推理任务。充足的存储空间可以避免因文件读取问题导致的性能瓶颈。
总的来说,选择合适的Deepseek版本取决于电脑配置。通过合理选择版本,可以充分利用电脑资源,获得最佳的深度学习效果。
三步部署:操作其实很简单
硬件核对完毕后,就可以开始进行本地部署的工作了。首先是检查基本的软件配置情况,Deepseek本地部署可以是Win10或者Win11系统,也可以是Mac系统。只要电脑安装了具有Python3.9以上的环境,并且拥有Pytorch或者TensorFlow等深度学习框架,为模型部署提供了构建、训练和部署深度学习模型所需的工具和库即可。
我根据对线上的各种安装视频的总结,将Deepseek的本地部署进行了打包整合。下载之后按解压可以得到以下3个程序。
Deepseek本地部署只需要这三个程序
下载解压后,会有3个步骤进行安装。第一步就是安装Ollama,这是Deepseek搜索引擎的核心框架,双击打开后选择安装,使其自动安装到C盘即可。
Ollama安装也是一键式操作
第二步是使用脚本下载Deepseek模型并运行,双击运行此脚本,它将自动启动Ollama服务。同时,该脚本会下载并运行Deepseek-R1模型。第一次运行时,将自动下载模型(大约6GB)。该模型是大多数人都能使用1.5b模型,需要更多模型可以到Deepseek官方的模型下载网站进行下载。
Ollama会根据指令,自动下载Deepseek大模型
第三步是让使用更便捷的可视化聊天界面程序ChatWise。能够更方便地与Deepseek-R1模型进行交互。同时支持多种对话模式和功能。安装完成后,界面如下所示。选择Deepseek R1模型后,您就可以在ChatWise的界面中与Deepseek-R1愉快地聊天、绘制图表或编写代码,体验极佳。
ChatWise提供多种模型的调用
本地调用效率出色,对比ChatGPT各有所长
本地部署完成后,我迫不及待地开始使用起Deepseek来。Deepseek的界面简洁而直观,让我能够快速上手。在使用过程中,我感受到了Deepseek的高效和流畅,其搜索结果的相关性评分和匹配文本清晰可见,极大提升了我的工作效率。
我使用结合了星座和生肖分析的问题,并且标明地域、使用场景和时间,让Deepseek为我搭配服装。
问Deepseek一个算命的问题
发送问题后,Deepseek不同于其他语言类大模型的特性展现在我眼前,它将有条理地快速对我的问题进行分析,并展示了推理过程,这个体验感强于之前的所有语言类大模型。
Deepseek分析过程示例
然后在眨眼间,Deepseek就对我的问题进行了非常细致的回答,从头到脚,从衣着到配饰再到饮食都进行了比较详细的推荐。
为了更全面地评估Deepseek,我也对ChatGPT进行了深入体验。ChatGPT的功能定位更加广泛,涵盖了文本生成、对话交互等多个方面。其用户界面设计现代化且丰富,提供了实时对话功能,让人眼前一亮。然而,相较于Deepseek的简洁直观,ChatGPT的操作稍显复杂。我需要花费更多时间去熟悉和调整模型参数,以适应不同的需求。同时,由于其功能更为强大,因此在某些特定场景下,如文本生成和对话交互等,ChatGPT确实展现出了其独特的优势。
同样的问题,采用ChatGPT来回答,得到的结果与Deepseek类似,却并未考虑到所在地广州这个条件因素。
同样的问题,问一下ChatGPT-O1模型
而对比网络上对两款模型的各方面比较,我深刻体会到了Deepseek和ChatGPT两款AI产品的特点和优势。Deepseek专注于搜索引擎技术,操作简洁高效,适合快速检索和信息提取;而ChatGPT则更加通用和强大,适合处理复杂的对话交互和文本生成任务。
总体来说是各有优劣,但考虑到DeepSeek超低的训练成本,不得不感叹当下的中国AI的确走在了正确的快车道上,未来可期!
来源:电脑报评论