摘要:2024 年,中国的大模型分水岭其实已经出现,无论是大厂还是创业公司,在技术、产品、商业化与生态等方面的战略都开始分化。大家不再是沿着同一条路线发展,而是根据自己的能力与目标做出不同的选择。百模大战的阶段终于过去。
作者丨陈彩娴
随着大模型六小虎在AGI上的后撤第一枪被正式打响,中国大模型行业的分水岭快速露出水面、更加清晰。初创公司在下一代超大规模模型竞争中的局限性开始被广泛关注,大厂「不下桌」的资本筹码变得更加明显。无论是百度宣布2025年将推出下一代基座模型,还是阿里、字节在AI人才和资金上的继续投入,潮水退去,大模型在决胜战场的主导权还是来到了大厂手中。01追赶与转向
2024 年,中国的大模型分水岭其实已经出现,无论是大厂还是创业公司,在技术、产品、商业化与生态等方面的战略都开始分化。大家不再是沿着同一条路线发展,而是根据自己的能力与目标做出不同的选择。百模大战的阶段终于过去。以创业公司为例,估值超 200 亿人民币的 5 家大模型公司中,百川智能的重心已转向行业大模型(如医疗),月之暗面与 MiniMax 的战略优先级是 C 端产品与应用,只有智谱与阶跃星辰仍在战略上朝着 AGI 大模型发力。低于 200 亿估值的 Tier 2 大模型公司也早已转向,切垂直细分方向。随着 Claude 3.5 Sonnet 等国内外多家大模型强势发布,性能大幅提升、达到了产品需求,各项指标测试甚至超过了 GPT-4o,OpenAI 不再一枝独秀。大模型变成“电力”资源的趋势已十分明显。一家专注 AI 代码生成的创业公司就告诉雷峰网,2023 年他们还需要围绕贴着大模型开发,这种模式的问题是但凡一家的大模型有更新、产品就要进行调整。但今年上半年,他们在应用开发中搭建了较大的容错系统后,可以同时接入 5 个底层模型,并根据产品需求调用不同模型的最长处,比如纯写代码时调用 Anthropic、指令遵循时调用 OpenAI。在此背景下,我们认为,长期来看大模型市场只会存在三层商机:底层基座模型提供商(类比发电厂)、中间云厂商(类比国家电网、南方电网)、上层 AI 软硬产品应用(类比电冰箱、电风扇等电子产品)。雷峰网制图
在发电厂、运营商、电气类产品这三个层级中,无论是模型还是应用的创业型公司,由于资金、人才与资源的积累,客观上至多只能选择两块战场、更多只能赌一个赛道。而由于基座模型训练的难度与资源要求高,行业的共识是,接下来更多创业公司的机会可能只有应用层,包括 AIGC 软件应用与 AI 智能硬件。
2024 年,OpenAI 仍在不断发布新模型,但值得注意的是,GPT-5 迟迟没有公布,虽然 OpenAI 发布了推理模型 o1,却并没有改变整个大模型格局。加上过去一年 OpenAI 流失多位核心技术骨干,人才在各个组织间流动、模型训练技巧几乎不再有秘密,下一代基座大模型的发展也面临更大变数。这些变数可能是:推出下一代基座大模型的公司不一定是 OpenAI;能够推出下一代基座大模型的公司也不再只有 OpenAI。据近期雷峰网与多位行业人士的交流,大家就接下来有望推出下一代基座大模型的团队所需能力达成的几个共识是:一是具备顶尖人才团队,二是账上有足够多的钱,三是能有大量的训练数据。高质量训练数据匮乏的解决途径包括仿真合成、用户交互或真实世界数据收集等。也因此,更多观点认为,基座大模型的玩家会收敛到资金人才齐备的大厂、以及极少数创业独角兽上。国内大厂中,只有在基座模型上具有领先身位的百度、以及阿里、字节有一定机会。尽管近期曝出 DeepSeek V3 的训练不到 600 万美元,但行业公认下一代基座大模型的训练成本仍是天文数字。参考大模型的技术发展路径,不难看出基座大模型的成本会走向两个极端:2020 年 6 月 OpenAI 推出千亿模型 GPT-3 后,大模型技术两年没有重大进展,2022 年 5 月 Meta 仿照其推出的同等参数规模大模型 OPT-175B 所需计算成本降为 GPT-3 在 2020 年的 1/7。(更多内容可以阅读雷峰网 2022 年报道《薛定谔的 AI 大模型》)但与此同时,OpenAI 在 2023 年之后推出下一代基座模型 GPT-4 的训练成本是 GPT-3 的 10 倍以上。也就是说,基于或借鉴已有大模型进行二次训练或优化的计算成本下降是必然趋势,同时推出下一代参数规模更大、智识水平更高的基座模型成本上升也是意料之中。诸如 DeepSeek V3 的技术成功是杰出的,但万丈高楼平地起必然比站在巨人肩膀上摘果子的难度与投入更大。根据其他媒体的报道,OpenAI 训练一遍 GPT-5 的算力成本就高达 5 亿美元。前零一万物首席架构师潘欣就告诉雷峰网,他认为大模型公司在“国内的第一梯队一年要烧 10 亿美金,国际一年可能要 50 亿美金”。10 亿美金的数字是推算出来的:训练一次多模态大模型大约需要 1000 万美金,一个模型可能要进行上百次实验。因此,下一代大模型的牌桌从资金实力上就已筛掉一批人。在海外硅谷,近期 GPU 的价格下降也十分明显,算力不再像之前那么紧张。造成这一现象的原因主要有两个,一是供应量加大,二是需求量减少,海外也从 2023 年的模型自训练转向直接调用 API。这说明海外的基座大模型玩家也已收敛到头部大厂或创业公司。2023 那年,国内大厂包揽模型、云与应用的态势还不算明显:字节虽有云雀大模型、也已推出豆包,行业声量上只有火山引擎站位突出;阿里虽然在云和模型层有一定累积,但多集中在TOB场景,C端AI应用步履缓慢。百度虽布局 AI 十数年,技术积累明显,在模型-云-应用也均有布局,但在大模型落地的产品、应用、场景、生态上仍在下功夫。到了 2024 年,阿里旗下的AI应用通义正式从阿里云分拆,开始在C端发力;字节重金招入大批人才,在豆包推广上投入大量预算。百度在行业大模型与C端应用上共同发力,实现一批场景的商业化验证。至此,百度、字节、阿里形成大厂集体阵容,在战略布局上与创业公司形成了明显的优势差。我们预计,2025 年,在大模型领域,无论是基座模型层还是 AI 应用层,大厂与大厂之间、大厂与创业公司之间、创业公司与创业公司之间的鏖战都会更加惨烈。无论从数据、人才与资金,大厂都占了更大优势,但我们也相信,或许有意想不到的黑马会冲出。02大厂们的筹码
百度、字节、阿里能够在基座模型、云服务厂商与上层应用中均有布局,这是大厂押注大模型浪潮、应对不确定性的安全牌。不过,这几家大厂是否会选择竞争下一代基座大模型(包括文本与多模态),云厂商如何兼顾自家模型与开源模型,以及应用层选择 B 端、C 端还是智能硬件或机器人等,也将决定接下来各家在大模型市场中的生态位。目前各家布局也有所特色:基座模型层,百度的投入与态度都很坚决,且不采用赛马机制、而是统一组队,团队成员是过去 2024 年相对较稳定的。而阿里、字节等大厂在文本、图文或视频上或多或少有资源竞争与团队竞争,赛马制明显。云服务层,火山引擎绑定豆包与即梦、同时获取其他创业公司的基座模型授权;百度重点打头部国央企等客户,目前已有六成在使用其AI服务;阿里云则一贯,买买买,投资凶猛。应用层,百度与阿里同时发力 B、C 端。B 端与行业头部客户共创行业大模型,C 端百度有AI搜索、文库、网盘等业务,阿里则以夸克搜索、通义App为主要抓手。百度、阿里、字节也都使用自家基座大模型升级内部产品,其中百度更是重在业务重构。字节的优先级不在行业大模型,主要聚焦在多模态 C 端应用开发,发力豆包、即梦、剪映等。AGI 真正到来之前,最终赢家还未确定。对大厂来说,全面布局基座模型、云服务与应用端均有布局的优势是能保底增收、以守为攻,难点在于资源分配、组织协调与执行效率。在下一代基座模型的牌桌上,百度、阿里、字节三者也展现出不同的优势。阿里是生态打法,对外投资和模型开源都是希望能把更多大模型玩家聚集在自家平台上。而字节延续一贯的土豪打法,结合算力储备、C 端产品生态闭环为多模态基座模型的训练提供支持。百度作为国内最早在大模型上投入的企业,在行业认知、模型技术积累和B、C端数据层面都有一定的领先优势。单从基本盘来看,百度在竞争下一代基座模型上胜率较高,关键在于其要保持甚至超越原有优势。算法积累时间长、技术系统完善、团队人才资深稳定、资金雄厚,都决定了百度可能是接下来极少数几家能够推出下一代基座大模型的中国公司之一。近期知识产权解决方案提供商 Questel 发布的《2024 深度学习专利全景报告》显示,从 2011 年到 2023 年,百度在深度学习和大模型领域申请专利数位居全球第一。其中,百度大模型创新表现出色,大模型专利申请283件,中国排名第一,腾讯第二、阿里第三。全球深度学习专利企业申请人排名
此外,基座大模型在百度内部的战略优先级、丰富的 B/C 端数据来源也会是百度差异化竞争条件。
之所以谈到战略优先级,是因为 2024 年全球已有多家公司宣布退出或减少大模型的预训练投入,技术优先级从大规模预训练转向微调、指令优化或现有模型的行业适配优化,战略制定以商业化考虑为先。但据了解,百度仍在继续投入预训练,并预计在 2025 年年初推出下一代文心大模型。当技术不再是秘密、大模型的发展走势也更清晰时,在一些关键问题的抉择上,决心比能力更能决定未来的形态。以基座模型的升级为例,当下一代大模型的训练投入成本从千万美金上升到 5 亿、10 亿,一些团队即使有能力参与竞争也可能会因为商业的考量而退出竞赛。风险高的牌桌不适合筹码过少的玩家,只有能够自我造血、且有坚定技术信仰的公司能够顶住压力,继续往下摸索。百度从 2010 年前后开始全力转向人工智能,曾一度因为布局过早而踩了许多先行者注定要踩的坑,但也因此提前赶上了 AI 的浪潮。根据百度多次公开披露,多年来百度一直将超过收入所得的 20% 用于人工智能等技术的研发,研发占比远超其他同规模大厂。在战略驱动的胜利下,百度在 2023 年 3 月推出中国第一个类 ChatGPT 产品文心一言,同时基于文心大模型与各行各业共创行业大模型。除了文心一言,也是在 2023 年,百度内部提出用大模型技术对全线产品进行重构,百度文库、百度网盘、自由画布等产品也因此得以在 2024 年冲出。与创业公司相比,拥有庞大业务线的大公司,实现能够打破公众预期、引人瞩目的创新通常需要更高的门槛。但不得不承认,百度 C 端 AI 应用的发展比我们想象地迅猛。以百度文库为例。据百度官方消息,百度文库在国内的付费用户已经突破 4000 万。根据其他媒体报道,截止 12 月底,百度文库仅 AI 功能的月活跃用户数已超过 9000 万,该数字仅次于 ChatGPT 的 3.1 亿,位列全球第二。相比之下,豆包的月活跃用户数是 5000 万规模。不论是文心一言还是百度文库,百度在C端产品上的先发优势仍在持续起作用,对用户心智的抢先占领,决定了市场份额。尤其在付费的情况下,用户极少会更换产品使用。在海外 ChatGPT 的 C 端收入仍难被超越也是同一逻辑。根据数据飞轮的原理,越早形成网络效应的C端大模型产品,就能越早形成数据飞轮,促进大模型智能进化。因此,在C端应用上的优势,不仅是商业化成功的验证。从数据的角度来说,也是百度的筹码之一。从行业上看,高质量训练数据的匮乏已经成为下一代基座大模型训练的重要影响因素之一。GPT-4 的参数规模是 1.6-1.7T,行业猜测 GPT-5 的参数可能是 10T 以上,也就是说下一代基座模型所需的数据量大约是现有的 8 倍以上。在 NeurIPS 2024 上,Ilya Sutskever 宣称预训练命运终结的主要原因就是,我们只有一个互联网,训练模型所需的海量数据即将枯竭,唯有从现有数据中寻找新的突破、AI 才会继续发展。Ilya 预测的数据突破口是智能体、合成数据与推理时计算。也就是说,在大厂之间关于下一代模型训练的竞争中,率先实现数据飞轮的公司将有更高的胜率。在这个问题上,百度的数据优势包括:1)百度搜索引擎带来的大规模中文数据。2)百度智能云积累的企业场景数据。3)文心一言、百度文库、百度网盘等 C 端应用产生的用户交互数据。4)自动驾驶产生的大量高质量多模态数据。5)知识增强技术提高优质数据的利用率。6)完善的数据安全使用体系。百度的 B 端与 C 端业务同时与模型结合,率先形成数据飞轮,有望帮助大模型训练解决高质量数据稀缺问题。除了基座模型与 B、C 端应用,中间层的算力与 API 服务对大厂也是考验与机遇同在。当越来越多 AI 应用公司出现,大厂们能否在稳住底层与上层实力的同时,扮演好中间的服务商角色?尽管现在国内的 AI 应用团队还不够多,星星之火仍未燎原,但当前的大模型应用商都已将多个模型接入应用底层、按需调用。在未来,一个任务可能是 4、5 个模型一起完成。唯一的问题是,现在大模型都分散在不同的云厂商手中,且相互之间不兼容。从用户的体验看,如何低成本调用不同厂商的基座模型是他们最关心的问题。一位 AI 代码生成的厂商向雷峰网评价,最理想的模式是通过一家云厂商能同时接好几家大模型。从价格模型看,每家云厂商都需要拥有至少一个主打模型,同时拿到其他模型的授权或自己投入开发多个类别的基座模型。但在方便 AI 应用开发的角度来看,无论海内外,许多云厂商的产品开发体验仍处于起步阶段。由于基座模型的不断迭代,百度在中间层的基本盘已能稳住。此外,飞桨平台为文心大模型提供高效的训练和推理支持,为开发者提供完整工具链和开发环境,在争夺开发者与企业开发生态上有优势。百度自建数据中心和 AI 专用加速硬件,昇腾芯片和其他国产硬件的支持增强了技术自主性,也能很大程度上规避外界因素的影响。总的来说,2025年,中国大模型格局从百模大战到大浪淘沙,进入快速的洗牌期。接下来一年中,或将有更多创业公司在下一代基座模型竞争中退场。从如今的战略决心和粮弹储备来看,留在下一代基座模型升级道路上,始终稳坐「大模型牌桌」的可能只有百度、字节、阿里等大厂。可以预见,2025年的大模型竞争格局也将就此打开全新的局面,大浪淘沙下,众者进入深水区。//来源:雷峰网leiphone
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!