摘要:2024 年 12 月 26 日晚间,DeepSeek 的开源模型 DeepSeek-V3 上线,瞬间在国内外 AI 圈引发轰动。该模型自研了 MoE 模型,拥有 671B 参数,激活 37B,并在 14.8Ttoken 上进行了预训练 。
2025年1月25日, 美国主流媒体 CNBC 对中国刚刚发布的 AI 大模型 Deepseek 做了专题报道 《How China’s New AI Model DeepSeek Is Threatening U.S. Dominance》
低调入场,一鸣惊人
在竞争激烈的 AI 领域,DeepSeek 就像一位低调的 “黑马” 选手,在人们还未充分留意时,已悄然崛起,凭借一系列技术成果惊艳众人。
2024 年 12 月 26 日晚间,DeepSeek 的开源模型 DeepSeek-V3 上线,瞬间在国内外 AI 圈引发轰动。该模型自研了 MoE 模型,拥有 671B 参数,激活 37B,并在 14.8Ttoken 上进行了预训练 。
其性能不仅甩开了此前发布的所有开源模型,更是在大多数基准上,比肩乃至优于世界顶尖闭源模型 GPT-4o,关键是整个训练仅花费 557.6 万美元,与 OpenAI、Meta 等动辄数亿美元的预训练成本相比,堪称 “性价比之王”。
紧接着,2025 年 1 月 20 日晚,DeepSeek 又发布推理模型 DeepSeek-R1 正式版。在数学、代码、自然语言推理等多个领域,DeepSeek-R1 展现出与 OpenAI o1 正式版比肩的实力 。
在被广泛认可的 Chatbot Arena 榜单上,DeepSeek-R1 综合排名进入前三,在风格控制类(StyleCtrl)中与 OpenAI o1 并列第一。而且,DeepSeek-R1 采用 MIT 许可协议,支持免费商用、任意修改和衍生开发,进一步扩大了其影响力。
幻方量化,作为一家在量化投资领域赫赫有名的私募巨头,早在创立之初就将目光投向了人工智能技术。2015 年成立后,幻方量化迅速在量化投资领域崭露头角,2016 年便推出了第一个 AI 模型,开启了量化投资的智能化时代。
此后,几乎所有量化策略都采用 AI 模型计算,其管理规模也在 2019 年突破百亿,成为国内量化私募的 “四巨头” 之一,甚至一度成为中国首家突破千亿规模的私募量化大厂。
在技术投入上,幻方量化堪称豪掷千金。2020 年,幻方累计投资超亿元打造的 AI 超级计算机 “萤火一号” 正式投入运作,其算力号称可匹敌 4 万台个人电脑,为 AI 研究提供了强大的计算支持 。
仅仅一年后,幻方又投入十亿建设 “萤火二号”,算力扩容翻倍,集群连续满载运行,平均占用率达到 96% 以上。据国盛证券数据,在云算力端,当时国内拥有超过 1 万张 A100 芯片储备的企业寥寥无几,幻方量化便是其中之一,强大的算力资源为其在人工智能领域的探索奠定了坚实基础。
2023 年,全球人工智能热潮汹涌澎湃,幻方量化顺势而为,孵化出了 DeepSeek。依托幻方量化在人工智能领域多年积累的技术、数据和算力,DeepSeek 一成立便站在了巨人的肩膀上,专注于 AI 大模型的研究与开发,开启了在大模型领域的征程。
惊艳业界的模型成果
(一)性价比之王:DeepSeek V2
2024 年 5 月,DeepSeek 发布的 DeepSeek V2 开源模型,凭借创新的架构设计,在 AI 领域引发了一场 “性价比革命”。
它创新性地提出了 MLA(多头潜在注意力机制)架构,将显存占用大幅降低至过去常用 MHA 架构的 5%-13% ,同时,独创的 DeepSeekMoE Sparse 结构,把计算量也降到极致。
这一系列创新使得推理成本大幅下降,每百万 token 仅需 1 元钱,约为 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一 。
如此亲民的价格,瞬间打破了 AI 模型市场的原有格局,引发了国内大模型的价格战。字节、腾讯、百度、阿里等大厂纷纷跟进降价,让更多开发者和企业能够享受到大模型带来的技术红利,推动了 AI 技术的普及和应用。
(二)性能飞跃:DeepSeek V3
仅仅半年多后,DeepSeek 再次发力,推出 DeepSeek-V3。这一次,它以更强大的性能和更低的训练成本震惊了全球 AI 界。
DeepSeek-V3 采用了自研的 MoE 模型,拥有高达 6710 亿的总参数,虽然参数总量不及 GPT-4o 的 1.76 万亿,但通过巧妙的架构设计,每次推理仅激活 370 亿参数,在保持高性能的同时,大大提高了计算效率。
在 14.8 万亿 token 上的预训练,让它在多项评测中成绩斐然,不仅超越了 Qwen2.5-72B 和 Llama-3.1-405B 等开源模型,更是在性能上与世界顶尖的闭源模型 GPT-4o 和 Claude-3.5-Sonnet 不相上下 。
在百科知识类任务中,DeepSeek-V3 在 MMLU、MMLU-Pro、GPQA、SimpleQA 等测试上的表现显著提升,接近 Claude-3.5-Sonnet-1022;长文本测评里,在 DROP、FRAMES 和 LongBench v2 上,平均表现超越其他模型;代码领域,在算法类代码场景(Codeforces)中,远远领先于非 o1 类模型,在工程类代码场景(SWE-Bench Verified)中逼近 Claude-3.5-Sonnet-1022;数学方面,在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,大幅超过所有开源闭源模型 。
更令人惊叹的是,其训练成本仅为 557.6 万美元,仅用了 278.8 万个 GPU 小时,而 Llama3-405B 的训练则消耗了 3080 万 GPU 小时。这种高效的训练方式,为大模型的发展开辟了新的路径,证明了在有限资源下,通过优化算法和架构,同样可以训练出高性能的模型。
(三)推理新贵:DeepSeek - R1
2025 年 1 月发布的 DeepSeek - R1,将 DeepSeek 的技术实力提升到了新的高度。它专注于推理能力的提升,在数学、代码、自然语言推理等多个领域展现出与 OpenAI o1 正式版比肩的实力。
在 Codeforces 算法类代码场景和 GPQA、MMLU 知识类测试中,DeepSeek - R1 的得分与 OpenAI o1 接近,在 SWE-Bench Verified 工程类代码场景、AIME 2024 和 MATH 美国数学竞赛项目上,甚至超过了 OpenAI o1 。与前作 DeepSeek-V3 相比,在 AIME 2024 和 Codeforces 中的得分提升了近一倍,推理能力有了显著进步。
DeepSeek - R1 在训练过程中大规模使用了强化学习(RL)技术,几乎跳过了监督微调(SFT)步骤,就能实现推理能力的自我提升。在推理过程中,它能够自然地涌现出强大的推理能力和有趣的推理行为,如自我反思、评估先前步骤、自发寻找替代方案等,甚至出现了 “尤里卡时刻”,即突然理解并解决以前无法理解的问题 。
DeepSeek - R1 采用 MIT 许可协议,完全开源,开发者可以自由使用、修改和分发,这一举措进一步推动了 AI 技术的共享与创新,让更多人能够基于其进行二次开发和应用拓展,加速了 AI 技术在各个领域的落地应用。
Deepseek 对于中美竞争的影响
对于科技战影响
在当前中美科技战的大背景下,AI 领域无疑是双方角逐的关键战场。DeepSeek 的横空出世,宛如一颗投入平静湖面的巨石,激起千层浪,极大地改变了中美在 AI 领域的竞争态势。
长期以来,美国凭借其雄厚的科研实力、丰富的人才资源和强大的资本支持,在 AI 领域占据着领先地位。OpenAI、Meta 等科技巨头在大模型研发上投入巨大,不断推出具有影响力的模型,引领着全球 AI 技术的发展潮流。而中国的 AI 企业虽然也在积极追赶,但在技术实力和国际影响力上与美国仍存在一定差距。
DeepSeek 的出现,打破了这一局面。其研发的 DeepSeek-V3 和 DeepSeek-R1 等模型,在性能上可与美国顶尖模型相媲美,甚至在某些方面实现了超越。DeepSeek-V3 以其 6710 亿参数的强大模型容量和创新的架构设计,在多项基准测试中表现优异,接近或超过了美国同类闭源模型的水平 。
DeepSeek-R1 更是在推理能力上与 OpenAI o1 正式版比肩,在数学、代码等专业领域展现出卓越的性能。这一系列成果表明,中国在 AI 核心技术上已经取得了重大突破,成功拉近了与美国的技术差距,让中国在这场科技战中有了更有力的 “武器”。
DeepSeek 的创新技术路线,如 MLA 架构、MoE 架构以及 FP8 低精度训练等技术,为中国 AI 产业的发展提供了新的思路和方向。
这些技术不仅提升了模型的性能和效率,还降低了研发成本,使得中国 AI 企业在面对美国的技术封锁和竞争时,能够另辟蹊径,通过技术创新实现弯道超车。这对于中国在全球 AI 产业中占据一席之地,打破美国的技术垄断,具有重要的战略意义。
对于金融战的影响
AI 技术的发展与金融市场紧密相连,美国股市近年来的牛市行情,科技股尤其是 AI 相关股票功不可没。英伟达、微软、谷歌等公司凭借在 AI 领域的领先地位,股价一路飙升,成为推动美国股市上涨的核心力量。
其中,英伟达作为 AI 芯片的龙头企业,其股价的走势更是对美国股市有着举足轻重的影响。
在 AI 热潮的推动下,英伟达的市值大幅增长,一度成为全球市值最高的公司之一,其业绩表现和市场预期直接影响着投资者对科技股乃至整个股市的信心。
DeepSeek 的崛起,却给美国股市的这一繁荣景象带来了潜在的冲击。DeepSeek 以极低的成本实现了高性能的模型研发,这一成果让市场开始重新审视 AI 行业的投资逻辑和价值体系。
一直以来,美国科技公司在 AI 研发上投入巨大,依赖大量昂贵的芯片和高额的研发费用来维持技术领先地位。而 DeepSeek 仅用少量芯片和 557.6 万美元的训练成本,就打造出了与美国顶尖模型媲美的产品 。
这使得投资者开始质疑,那些投入大量资金用于 AI 研发的美国公司,其高昂的成本是否合理,是否能够获得相应的回报。
如果市场对美国 AI 公司的投资价值产生怀疑,资金可能会从这些公司流出,导致其股价下跌。英伟达等 AI 芯片企业的市场份额和盈利能力可能会受到影响。
若 DeepSeek 的技术路线被证明可行,更多的企业可能会选择采用低成本的研发模式,减少对昂贵芯片的依赖,这将直接冲击英伟达的市场需求,进而影响其股价。而英伟达股价的下跌,可能会引发连锁反应,导致整个美国科技股板块的调整,甚至对美国股市的牛市行情构成威胁。
从宏观角度看,美国股市在全球金融市场中占据着重要地位,其波动会对全球金融市场产生溢出效应。若因 DeepSeek 的出现导致美国股市出现大幅调整,可能会引发全球金融市场的动荡,改变当前的金融格局,为中美金融博弈带来新的变数。
美国逐渐失去对中国的优势
DeepSeek 的出现,无疑让美国在 AI 领域的优势进一步缩小。这不仅是技术层面的较量,更是国家综合实力和创新能力的体现。美国一直试图通过技术封锁、人才限制等手段,遏制中国在高科技领域的发展,以维持其在全球的科技霸权地位 。
但 DeepSeek 的成功,打破了美国的如意算盘,让中国在 AI 领域拥有了与美国分庭抗礼的实力。这也促使美国重新审视其对华科技政策,思考如何在新的竞争格局下保持自身的竞争力。
从更宏观的角度来看,DeepSeek 的崛起是中国科技实力不断提升的一个缩影。近年来,中国在 5G 通信、高铁、航天等多个领域取得了举世瞩目的成就,在国际舞台上的话语权越来越大。
美国在这些领域的传统优势正逐渐被削弱,而中国则以创新为驱动,不断缩小与美国的差距,甚至在某些方面实现了超越。DeepSeek 的出现,只是中国科技崛起浪潮中的一朵浪花,但它所蕴含的力量,却足以让世界重新认识中国科技的实力和潜力。
来源:湖北电视台-说科技