摘要:2025年春节,DeepSeek(深度求索)的横空出世无疑在全球AI界投下了一枚“重磅炸弹”。这款由杭州深度求索人工智能基础技术研究有限公司开发的人工智能模型,凭借其卓越的性能和低成本的优势,迅速在全球范围内引发了巨大关注。它不仅在美国和中国区App Stor
2025年春节,DeepSeek(深度求索)的横空出世无疑在全球AI界投下了一枚“重磅炸弹”。这款由杭州深度求索人工智能基础技术研究有限公司开发的人工智能模型,凭借其卓越的性能和低成本的优势,迅速在全球范围内引发了巨大关注。它不仅在美国和中国区App Store免费榜上双双登顶,还成为首个超越OpenAI ChatGPT的AI助手类应用,用户量在短时间内突破2200万,成为继ChatGPT之后的又一个现象级AI产品。
DeepSeek的成功不仅在于其技术上的突破,更在于其对AI行业传统观念的颠覆。过去,人们普遍认为AI模型的性能与计算能力和能源消耗成正比,即“越大越好”。然而,DeepSeek通过创新的模型架构和高效的训练方法,打破了这一固有认知。它能够在远低于传统AI模型所需的计算能力和能源消耗下,实现与GPT-4等顶级模型相媲美的性能。
DeepSeek的模型架构采用了Mixture of Experts(MoE)技术,这种架构允许模型在推理时只激活部分参数,从而大幅降低了计算资源的消耗。此外,DeepSeek在训练过程中大规模使用了强化学习技术,进一步提升了模型的推理能力,尤其是在数学、代码和自然语言推理等任务上表现出色。
据 DeepSeek 公司官网介绍,DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有很少标注数据的情况下极大提升了模型的推理能力,在数学、代码、自然语言推理等任务上,测评性能与美国开放人工智能研究中心(OpenAI)开发的 GPT-o1 模型正式版接近。
而这种高性能的推理能力却是建立在极低的成本之上。根据SemiAnalysis的研究,DeepSeek一共有6万张计算卡,其中A100、H800、H100各一万张,H20三万张。其中相对最先进的,是H100。
假如以这个H100为基准,假设H100的算力是100,那么A100的算力大概是50,H800的算力是60,H20的算力是15。这些计算卡的算力加起来,大概是255万。这个配置要远低于同规格的其它大模型。
全球大模型综合能力比较 来源:ABC
DeepSeek的低成本高效推理能力是其火爆出圈的关键。根据SemiAnalysis的研究,DeepSeek的训练成本仅为OpenAI GPT-4的十分之一,训练所需的GPU算力也远低于全球平均水平。这种高效的计算方式不仅降低了训练成本,还减少了对能源的需求,尤其是在数据中心的冷却方面,进一步降低了能源消耗。
然而,尽管DeepSeek在短期内可能抑制了算力和能源需求的增长,但从长远来看,随着AI应用的普及和扩展,推理需求可能会显著增加。这种现象被称为“杰文斯悖论”,即技术效率的提高反而会刺激需求的增长。正如瓦特改良蒸汽机后,煤炭消耗总量不降反升一样,DeepSeek的低成本高效推理能力可能会推动AI应用的广泛落地,最终导致算力和能源需求的同步增长。
DeepSeek的出现不仅震动了科技行业,也对能源行业产生了深远影响。过去,AI的快速发展被认为将带来巨大的能源需求,尤其是数据中心和芯片制造商的能源消耗。然而,DeepSeek的高效能模型表明,AI的能源需求可能并不像预期的那样高。这可能会对电力行业的未来规划产生重大影响,尤其是在全球碳中和的背景下。
尽管如此,DeepSeek的“思维链”推理模式可能会在某些情况下增加能源消耗。由于其倾向于生成更长的回答,DeepSeek在某些任务中的能源消耗可能比其他模型更高。因此,如何在高效推理与能源消耗之间找到平衡,仍然是未来AI发展的重要课题。
DeepSeek的成功标志着AI技术进入了一个新的阶段,即高效能与低成本并行的时代。随着AI技术的不断进步,能源与算力的协同将成为全球数字化转型和碳中和目标的核心交汇点。正如远景科技集团董事长张雷所说,“智力就是能量”,AI的发展离不开能源的支持,而能源的高效利用也将推动AI技术的进一步突破。
未来,随着更多像DeepSeek这样的高效能AI模型的出现,AI应用的普及将加速,推动各行各业的智能化转型。这场能源与人工智能的“双向奔赴”不仅将改变科技行业的格局,也将对全球经济、政策和社会产生深远影响。
内容参考:环球零碳
来源:能投委