DeepSeek掀翻“AI牌桌”,三大拐点决定大模型未来

360影视 2025-02-06 14:20 2

摘要:幻方量化旗下AI初创公司DeepSeek成功“破圈”,凭借基于深度学习的量化交易模型“掀翻”了全球人工智能市场的牌桌。这也成为美国、日本进一步加紧对中国半导体产业实施出口管制的诱因之一。

2025年伊始,大模型已经站在新周期的起点上。

幻方量化旗下AI初创公司DeepSeek成功“破圈”,凭借基于深度学习的量化交易模型“掀翻”了全球人工智能市场的牌桌。这也成为美国、日本进一步加紧对中国半导体产业实施出口管制的诱因之一。

如果以OpenAI为代表的大语言模型进一步催化了具身智能的发展,那么DeepSeek的出现,证明了在“大力出奇迹”的规模定律(Scaling Law)之外,AI大模型还有另一条制胜之道:调整大模型的基础结构+有效利用有限资源。

我们清晰地看到,以往靠堆算力和一味追求扩大模型尺寸的迭代路径已经被打破。大模型正在从“唯规模论”转向“性价比”,用更低的能耗和资源实现更高的效能;从海量数据转向高质量数据,提高大模型解决垂直行业问题的能力。

过去一年,AI智能体、AIGC、多模态塑造了大模型的应用场景;新一年,由DeepSeek 引发的技术拐点将变得更加明显,全球大模型市场竞争格局有望被改写。

站在AI门口的“圈外人”

作为一家成立不到两年的大模型公司,无论在融资、技术进展还是舆论层面,DeepSeek一向都名不见经传。而它背后的母公司幻方量化,在此之前也仅在私募圈出名。

出人意料的是,一家私募和一家大模型初创公司,这样少见的组合演绎了“DeepSeek神话”,原本用于量化投资的大模型,没想到却震动了全球科技行业。

对于身处人工智能行业的公司而言,“圈外人”DeepSeek的破门而入,真应了那句话:“即将消灭你的那个人,迄今还没有出现在你的敌人名单上。”

2023年,梁文锋宣布正式进军通用人工智能(AGI)领域,创办深度求索(DeepSeek),仅有139名工程师和研究人员。相比之下,OpenAI有1200名研究人员,开发Claude模型的Anthropic则有500多名研究人员。

虽然团队规模不大,DeepSeek在此后一年多里取得了令人瞩目的成果。2024年5月,DeepSeek发布DeepSeek-V2模型,采用了注意力机制方面的MLA(多头潜在注意力)、前馈网络方面的DeepSeekMoE等创新的架构,以实现具有更高经济性的训练效果和更高效的推理。API定价为每百万tokens输入1元、输出2元,价格仅为美国OpenAI GPT-4 Turbo的百分之一。

去年12月,DeepSeek-V3模型发布。官网信息显示,DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,甚至可以与GPT-4o、Claude 3.5-Sonnet等顶级闭源模型一较高下。

值得关注的是,DeepSeek-V3依旧走了一条极高性价比的路径,其仅使用2048颗算力稍弱的英伟达H800 GPU,成本约为557.6万美元。相比之下,OpenAI的GPT-4o训练成本高达7800万美元。这意味着,DeepSeek-V3以十分之一的成本实现了足以与GPT-4o较量的水平。

今年1月20日,DeepSeek进一步取得突破,正式发布DeepSeek-R1模型。该模型在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。该模型在后训练阶段大规模使用强化学习(RL)技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。

对此,美国OpenAI创始成员之一的安德烈·卡帕西(Andrej Karpathy)表示:“DeepSeek在有限资源下展现了惊人的工程能力,它可能重新定义大模型研发的规则。”著名投资公司A16z创始人马克·安德森(Marc Andreessen)称赞这是“最令人惊叹的突破之一,给世界的一份意义深远的礼物”。

在DeepSeek爆火背后,“通专融合、逻辑推理、轻量化”三大技术拐点打乱了全球既有的AI市场牌局,动摇了英伟达的“算力信仰”,就像突然杀进牌局的一张王炸,让人不得不重新审视整个AI市场的游戏规则。

通用与专家的融合

过去两年,以ChatGPT为代表的大模型引领了通用人工智能的高速发展。一方面,大模型的确在智能涌现能力上不断提升,并从语言快速向多模态、具身智能发展;另一方面,大模型带来了算力、数据、能耗的挑战,在应用上泛化能力、幻觉问题仍然是很大的两个瓶颈。

在2017年Transformer提出以后,大模型在泛化能力上“狂飙”,但此前擅长的专业能力进步缓慢。

OpenAI首席执行官Sam Altman曾坦言,GPT-4的专业能力大概相当于10%-15%的专业人士,即使迭代到GPT-5,其专业能力预计也只会提高4-5个百分点。这意味着,OpenAI将用指数级的能源消耗增长换来缓慢的专业能力提升。

如果一直顺着通用大模型这条路线往前走,基本上是沿着包括Meta、谷歌等企业的既有路径,朝着几十万卡的规模去购买显卡,那意味着中国企业要与这些企业进行资源竞争,这不见得是一条最合适的路。

至今,大模型本身存在的专业性、泛化性和经济性“不可能三角”问题依然未被有效解决,导致目前行业实际落地应用进程并不快。

“通专融合”是通往AGI的战略路径,也被业界视为更适合未来大模型的发展之路,即构建一个既具有泛化性又具备专业能力的人工智能系统。与目前的大模型相比,这种系统可以更高效、更好地适应并解决现实世界中的复杂问题。

DeepSeek-V3以6710亿的总参数规模成为目前最大的开源模型,但其真正的创新之处在于,每个token仅激活370亿参数,这种灵活的资源管理显著降低了计算成本,提升了资源的利用效率。

这种设计恰如其分地展示了深度学习领域的一种新趋势——资源优化与算法创新的完美结合。如何有效管理和调度计算资源,已经成为提升AI模型性能的关键所在,而DeepSeek-V3的混合专家架构(Mixture of Experts,MoE)则为此提供了一个极具参考价值的范例。

MoE架构将复杂问题分解为多个子任务,由不同的“专家”网络处理。这些专家是针对特定领域或任务训练的小型神经网络,例如语法、事实知识或创造性文本生成。

与传统模型对每个输入激活所有参数不同,MoE仅激活与当前任务相关的专家。这种选择性激活显著降低了计算资源的需求,同时保持了高性能。通过“专家选择”路由算法,DeepSeek-V3任务在各个专家间的负载均衡,避免某些专家过载或闲置。

这使得DeepSeek-V3的适用性大幅提升,不仅适合高性能计算环境,也能在资源有限的条件下实现出色的表现。

“通专融合”必须实现“通用泛化性”“高度专业性”“任务可持续性”三者兼得。

关于通专融合的目标,一方面,随着合成数据飞轮效应的加速,过去一年基础模型获取通用能力的难度显著降低;另一方面,在世界知识的压缩能力上,开源模型的性能已无限逼近闭源模型。

然而,不管是开源还是闭源模型,在专业化能力方面仍存在显著瓶颈。例如,在实际的软件工程环境中,GPT-4仅能解决GitHub中1.74%的人类提出的问题。即便通过引入大量工具、结合基础模型与工具型Agent的方式,这一比例也仅提升至13.85%。

可以看到,目前对于世界知识进行压缩的发展路径正在自然演进,但这之上的专业能力,才是现阶段AGI皇冠上的明珠。因此,“通专融合”将是一条必然的路径。

从“快思考”到“慢思考”

在卡尼曼的《思考,快与慢》一书中,他对人类的两种思维方式进行了精妙的剖析:快速直观的感性思考与深入细致的理性思考。

快思考如同灵光一闪,迅如闪电,主导着我们的日常判断与决策,犹如舞台上的主角,使生活这部大戏得以流畅进行。然而,这种快速反应有时却像被雾气笼罩的镜子,容易受到情感和刻板印象的影响,导致决策失误。

相比之下,慢思考则如同精雕细琢的匠人,需要我们投入更多的认知资源和努力。它如同沉稳的智者,通过深入的、有意识的思考,能够避免快思考中的偏见和误判,使我们更有可能做出理性、周全的决策。

如今,大模型的发展也走到了思考“快”与“慢”的十字路口。当靠推数据、堆算力形成的快思考正在出现边际递减效应,依靠逻辑能力沉淀而成的慢思考能力将成为大模型的“第二增长曲线”。

2024年最重要的模型更新莫过于OpenAI的o1,以前称为Q*,也称为Strawberry。这是第一个具备真正通用推理能力的大模型,而实现这一点靠的是推理时间计算(推理时间计算是指在人工智能和机器学习中,通过增加额外的计算时间来优化模型在解决特定问题时的表现)。

以前,预训练模型是通过对大量数据的学习,进而实现后续内容的预测。这背后依赖于大量的模型训练时间,但这种推理能力很有限。

现在,通过推理时间计算,模型会在给你答复之前停下来思考,这需要在推理时进行更多的计算。“停下来思考”的部分就是推理。

这意味着,人工智能的发展方向发生了重大变化,即从预训练所带来的“快速思考”,向基于强化学习的“慢速思考”发展,这一演变将解锁更多新的AI代理应用。对此有人预言,大模型的预训练时代即将终结。

当前,大模型的发展路径遵循一个易于理解的扩展定律:在预训练模型上花费的计算和数据越多,模型性能就越好。o1则为扩展计算带来了另一种可能:即给模型推理时间的越长,其推理效果就越好。

OpenAI的最新o1模型标志着使用诸如思维链和强化学习等技术向推理时间的逻辑推演转变。o1模型通过试错学习最优路径,就像人类解决问题时涉及大量的自我反思和错误纠正。这使得模型在复杂的推理任务中表现出色,例如数学、编程和科学查询。

然而,这种能力是有代价的,o1的每token价格比GPT-4o高3-4倍。另一个类似的模型是DeepSeek的R1-lite-preview。与o1的简明摘要不同,R1-Lite-Preview会实时向用户展示其完整的链式思维过程。这种对推理时逻辑推演的日益重视可能会增加对低延迟计算的需求。

在提升模型推理能力方面,目前主要的难点是高密度监督数据,例如高难度的问题和更详细的思维链,这些数据在自然文本中占比很小,需要研究有效的构造方法。

此外,推理能力目前的提升路径依赖有效的强化学习,在强化学习中如何提升模型的搜索效率,如何训练泛化且可靠的奖励模型以便于获取反馈也是难点。

传统上,监督微调(Supervised Fine-Tuning,SFT)作为大模型训练的核心环节,需要先通过人工标注数据进行监督训练,再结合强化学习进行优化,这一范式曾被认为是ChatGPT成功的关键技术路径。

但是,DeepSeek-R1-Zero是首个完全摒弃了监督微调环节、而完全依赖强化学习训练的大语言模型,证明了无监督或弱监督学习方法在提升模型推理能力方面的巨大潜力。

DeepSeek极低的训练成本预示着AI大模型的算力需求会加速从预训练向推理侧倾斜,推理有望接力训练,成为下一阶段算力需求的主要驱动力。

作为一种新的人工智能发展范式,“快慢结合”的背后是模拟人脑的系统1与系统2——系统1是人脑的快速决策,反映的是长期训练下的专业能力;系统2是慢系统,体现的是深度思考下的泛化能力。

从“快思考”到“慢思考”,为大模型Scaling Law带来了新的范式转换。过去大模型的路径是Next Token Prediction(这是一种自监督学习技术,模型被给予一系列token,并预测下一个。这种方法通过训练模型来学习语言中的统计规律,从而生成或理解自然语言文本),但预测下一个词有局限性,是一个静态的数据集,没办法探索更难的任务,接下来大模型的目标是通过强化学习让人工智能具备更强的思考能力。

大模型“瘦身”进行时

OpenAI的火爆来自“大力出奇迹”路线,以规模作为大模型的制胜法宝可谓屡试不爽。但这也让AI大模型的发展陷入了一个怪圈:为追求更高的性能,模型体积不断膨胀,参数规模呈现指数级增长,算力和成本消耗惊人。

受大模型训练的高昂成本拖累,OpenAI在2024年的亏损额可能达到50亿美元,业内专家预计到2026年其亏损将进一步攀升至140亿美元。

而中国人工智能公司运用剪枝、量化、知识蒸馏等一系列创新技术,降低大模型的实际运算负担,开启了大模型“瘦身”之路。

然而,这样的策略也带来了一个悖论:若大幅度削减大模型的参数量以适应有限的计算资源,那么其原有的规模优势和丰富的表达能力将会削弱,从严格定义上可能就不再符合大模型的标准。

因此,如何在保持大模型强大功能的同时,有效平衡算力需求与效率之间的关系,成为了该领域未来发展的重要课题。

以DeepSeek为例,R1在多个基准测试中与美国OpenAI公司的o1持平,但成本仅为o1的三十分之一。模型性能的追赶速度也很快,OpenAI推出正式版o1模型是在2024年12月,仅仅1个多月后,DeepSeek就发布了性能相当的R1模型。

在训练过程中,DeepSeek采用了推理数据集,进一步筛选和提升了数据质量,为模型提供了可靠的推理基础。训练后期,通过蒸馏技术对模型进行轻量化处理,使得模型更适合在消费级显卡上进行本地部署,降低了对高端算力的需求,同时保留了较强的推理能力。

DeepSeek的成功证明,大模型创新不一定要依赖最先进的硬件,而是可以通过聪明的工程设计和高效的训练方法实现。

与传统的预训练不同,“知识蒸馏技术”是使用一个大型的“教师模型”来指导一个小型的“学生模型”的训练。用“蒸馏”方式训练小模型,不再直接从训练大模型时会用到的那些巨量数据中学习,而只是在模仿。

通俗来讲,就像上课的时候老师讲了一道爆难的题目,全班除了学霸以外,其他人因为脑子的软硬件配置不足,都没搞懂。之后学霸在老师思路的基础上,简化了若干个参数和步骤,使其对大脑软硬件配置的要求下降,成功教会了全班大部分人。学霸做的这件事,就叫做蒸馏。

不过,蒸馏技术存在一个巨大缺陷,就是被训练的“学生模型”没法真正超越“教师模型”。因为简化会损失部分信息,如果损失的是关键信息那整个系统就崩塌了。实际上,全球几乎所有大模型都试图在做蒸馏,但效果都不太好,而DeepSeek可能是第一个效果良好接近原版的。

从信息技术发展历史看,“轻量化”进程也是大势所趋。计算机曾是占据整个房间的大型机,后来发展成可作为桌面设备的电脑,又进化为便携式笔记本。手机从早期的砖头式“大哥大”,改进为小巧的功能机,又进化至如今的智能终端。

大模型正在经历类似的进化过程。事实上,模型并非越大越好,而是越精越妙,把一些劣质的数据从数据集中拿掉,模型性能可能会表现更好。

为了在减少参数的同时保持甚至提升模型性能,研究人员不得不深入挖掘模型架构的优化空间,探索更高效的算法和训练方法。这一过程推动了人工智能基础理论的发展,也为相关技术的跨领域应用开创了新局面。

如今,大模型的架构正从大型单体系统演变为轻量化、专业化的模型组成的分布式网络,这涉及到一个主模型协调这些专用模型之间的任务。而更好的压缩技术和高质量合成数据的使用,将有助于未来模型的轻量化和AI的普惠化。

Meta最近的研究表也表明,平行使用多个较小的模型可以持续超越单一的大型模型。这种方法类似于人脑,人脑不是一个单一的均匀结构,而是由海马体(记忆)、额叶(逻辑)和枕叶(视觉)等专业化区域组成。

DeepSeek事件标志着中美科技战进入“深水区”,这场博弈的终局或将决定未来数十年全球科技权力的格局。

在这样的现象级产品出现之前,过去两年多时间,由于AI业界对高性能显卡的追逐,英伟达被一路推上王座。无论在资本市场还是产业链,这个逻辑似乎已经确立,没人料到DeepSeek横空出世,硬生生搅了局。

这场冲击波能持续多久,还是个未知数。DeepSeek的势头固然很猛,但能否弥合国产大模型与国际先进水平之间的技术代差,仍然值得商榷。另外,DeepSeek通过算法优化提升效率,是否就意味着对算力需求的明显减弱,下结论也还太早。

不过,DeepSeek的抗争,无疑是一个打破技术垄断、重建数字秩序、重塑科技自信的重要机会窗口。我们既要肯定其取得的成就,但也要在狂热中保持一份清醒。

诚如DeepSeek创始人梁文锋所言,中美真实的差距是“原创”和“模仿”之差。如果这个不改变,中国永远只能是追随者,有些必要的探索和创新的成本是逃不掉的。英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。

在任何一个领域里,但凡有所成就者,都是长期主义者,因为他们敢进窄门,愿走远路。只有突破“拿来主义”的惯性束缚、摒弃“先模仿再创新”的抄近路心态,不再沉醉于短期泡沫带来的快感,将技术原创奉为圭臬,才是中国人工智能企业需要走好的“华山一条路”。

来源:极智GeeTech

相关推荐