摘要:2025年春节期间,深度求索(DeepSeek)公司的通用大模型DeepSeek-R1引发全球科技界震动。这款模型以1.8万亿参数规模实现接近人类水平的数学推理能力,在权威测试集GSM8K上取得98.7%的准确率,超越GPT-4等国际主流模型。其训练效率较传统
周城雄(中国科学院科技战略咨询研究院)
2025年春节期间,深度求索(DeepSeek)公司的通用大模型DeepSeek-R1引发全球科技界震动。这款模型以1.8万亿参数规模实现接近人类水平的数学推理能力,在权威测试集GSM8K上取得98.7%的准确率,超越GPT-4等国际主流模型。其训练效率较传统方法提升3倍,能耗成本降低40%,被外媒称为“中国AI的里程碑时刻”。
近年来,全球的人工智能已从“点状应用”进入“系统性成熟”阶段,其经济逻辑与技术逻辑的耦合开始推动产业变革。DeepSeek-R1的诞生加速了这一进程,随着算力成本下降和算法效率提升,综合性大模型具备了商业可行性,动摇了硅谷依赖算力堆砌的技术优越性叙事。纽约大学教授Gary Marcus指出,其开源策略可能重构OpenAI的商业模式,吸引更多开发者生态资源。
构建技术护城河。DeepSeek-R1在纯强化学习训练、算法—系统协同优化及开源生态构建三方面实现显著突破,可以用“更聪明、更便宜、更开放”来概括。其性能对标国际顶尖模型,同时以低成本推动技术普惠。尽管面临算力依赖(如仍需英伟达H800集群)和泛化能力挑战,但其创新模式已为全球AI发展提供新范式——证明“算法创新可突破算力瓶颈”,并为中国在基础模型领域提升了话语权。
一是自主学习,减少依赖。传统大模型需要海量人工标注的数据来训练,成本极高。而DeepSeek-R1采用了“纯强化学习”技术,让AI像人类一样通过试错和奖励机制自主优化。例如,在数学题训练中,系统不需要标准答案,只需告诉它“解题步骤合理且结果正确”,AI就能自己摸索出解题方法。这种方法不仅省去了数据标注的麻烦,还让模型在数学推理等复杂任务中达到了接近人类顶尖选手的水平。
二是分阶段训练,精打细算。研发团队设计了四步训练法:先用少量高质量数据打好基础(冷启动),再针对推理任务专项优化,接着筛选优质答案提升质量,最后融合人类偏好确保安全性。这种“先学走再学跑”的策略,配合智能分配计算资源的技术,让训练成本大幅降低。
三是开源共享,推动普惠。DeepSeek-R1选择全面开源,允许任何人免费使用和改进技术。这种开放策略吸引了全球2000多个开发者参与,香港大学团队仅用30美元就复现了基础功能。开源不仅加速了技术普及,还让中小企业和研究者能用上高性能AI,打破了巨头垄断的局面。
四是性能对标国际顶尖水平。在数学解题(97.3%正确率)、代码生成(超过96%程序员水平)、多语言处理等任务上,DeepSeek-R1已与OpenAI等顶尖模型持平甚至超越。更惊人的是,其API调用成本仅为GPT-4的三十分之一,用“小成本办大事”的模式颠覆了行业认知。
DeepSeek引发硅谷震动的深层逻辑,首先是技术路径的范式冲击。DeepSeek“有限算力+算法创新”的模式,打破“大模型需天量投入”的行业假设,在AGI关键指标上的突破动摇了硅谷的技术优越性叙事。
其次是训练成本与效率优势。DeepSeek-V3的训练成本仅为558万美元,是Meta Llama 3.1的1/14,且性能相当。其采用FP8混合精度训练和DualPipe流水线并行技术,将显存占用降低50%,同时通过动态量化实现模型压缩,使本地部署成为可能。这种“小算力驱动大模型”的策略,直接冲击了依赖大规模算力堆砌的硅谷模式。
第三是人才与生态重构。DeepSeek的开放式创新模式首次在AI基础层构建全球人才网络。DeepSeek的跨国协作模式与敏捷商业化能力,展现出迥异于传统实验室的创新效率。这种“技术主导型国际化”路径,正在改变全球创新要素向硅谷单向流动的态势。DeepSeek从论文发表到API开放仅用45天,其快速构建的“模型即服务”生态,形成技术与市场的正向循环。
DeepSeek的成功给我国AI发展带来诸多启示:
硬核创新的成功范式。DeepSeek的突破源于对“第一性原理”的坚持:五年深耕数学基础理论、开发自主芯片架构、构建产学研协同体系。其MoE架构通过细粒度专家拆分(256个路由专家)和共享通才机制,实现资源最优分配。这种模式为行业树立了“硬核创新与长期投入”的标杆。
系统性差距仍需正视。尽管DeepSeek取得突破,但是我国AI发展仍面临三方面的短板:一是AI芯片整体算力仅为美国的38%,大模型训练仍需进口GPU集群;二是数据质量差距大,高质量多模态数据集数量不足硅谷1/5,标注成本高30%;三是人才差距较大,顶尖AI理论研究者数量仅为美国1/3,原创性算法仍待突破。这些差距警示我们,仅仅依靠DeepSeek的单点突破,仍不足以扭转劣势。为应对DeepSeek的挑战,OpenAI就快速发布了一款名为“深层研究”(deep research),并且美国国会中与中国进行AI人才争夺的声音日益增强,这表明我国发展AI的道路不会一帆风顺。
AI革命的核心在于“创造力解放”,而DeepSeek的进展揭示了双重可能性:既可通过技术迭代缩短差距,也可能因范式革新实现“换道超车”。因此,我国应当持续在以下三个方面发力——扩大智慧城市场景、推动数据制度变革、构建算力体系,让以DeepSeek为代表的AI产业形成“技术突破—场景落地—生态构建”的闭环,持续加强我国AI技术发展的内生动力。
来源:投资快报