摘要:大模型领域正在形成一些新的共识,那就是AGI(通用人工智能)不太可能基于现有的大模型架构或算法来实现,要突破人工智能的智能瓶颈,需要找到新范式。作为Meta首席AI科学家,一开始就不断嘲讽Google和OpenAI奉行的Transformer架构的Yann L
撰文 | 新皮层小组
编辑 | 吴洋洋
大模型领域正在形成一些新的共识,那就是AGI(通用人工智能)不太可能基于现有的大模型架构或算法来实现,要突破人工智能的智能瓶颈,需要找到新范式。作为Meta首席AI科学家,一开始就不断嘲讽Google和OpenAI奉行的Transformer架构的Yann LeCun一直都是持这种观点——AI要变成AGI需要新范式。本周的在2025达沃斯世界经济论坛上,他再次宣扬了这一点,并声称AI新范式5年内就会出现,因此断言大语言模型的「保质期」只有3到5年。国内大模型领军公司字节跳动的动作也很诚实,它在1月下旬成立了一个名为「Seed Edge」的研究项目,这个项目看名字就很前沿,目标是进行比「预训练」和大模型迭代更长期、更基础的AGI研究,其中包括寻找AI的下一代范式。
而与此同时,另一些曾经的共识在松动。
大模型的Scaling Law(扩展定律)一度让众人相信,模型越大,其智力越高,而若要让模型拥有更高智力,就需要用更多的芯片训练更大的模型。粗略来看,GPT-3只需要几千块英伟达GPU就能训成,GPT-4则需要消耗上万块,而根据扎克伯格2024年9月接受采访时的说法,Meta的下一代模型——Llama 4使用了超过10万块GPU。如果按照单块平均价格2.5万美元计算,Llama 4的成本在25亿美元左右。这一数字吓倒了不少大模型初创公司和投资人。这也是为什么去年下半年以来国内大模型公司几乎都停止了「预训练」,即停止投入更多算力、用更多数据训练下一代大模型。连欧洲最大的大模型公司Mistral都陷入了融资困境,其首席执行官Arthur Mensch在2025达沃斯世界经济论坛上还在说公司「不会出售」,并计划推进IPO。
本周一刚刚上台的美国总统特朗普一上台就抛出了一个吓人的算力基建计划,计划总投资5000亿美元,在全美建立支持下一代AI所需的数据中心。这个项目的名字「星际之门」(Stargate)也富有雄心,它与美国1994年拍摄的科幻电影同名,那部电影讲述了一个美国团队如何发现通往其他星球的秘密通道,并就此与外星文明展开交流的冒险旅程。OpenAI、日本软银、美国甲骨文公司和中东的阿布扎比AI基金MGX据说都要给这个算力基建项目投资,连马斯克都要被拉下水。
不过下一代AI是否还需要如此大算力值得质疑。国内大模型公司DeepSeek在2024年12月发布的新一代MoE模型DeepSeek-V3,在基准测试中表现接近当前业界表现最好的Claude 3.5 Sonnet-1022,超过Meta的LIama 3.1 405B-Inst以及OpenAI的GPT-4o 0513。而更重要的是,DeepSeek-V3模型的总训练成本仅为557.6万美元,远远低于扎克伯格声称的25亿美元。一位Meta员工本周发文称,DeepSeek-V3模型的成本和表现让Meta的生成式AI团队陷入恐慌,公司领导们正在担心无法为生成式AI部门的高成本辩护。
如果DeepSeek-V3的创新属实,不仅将重塑Meta的生成式AI团队,也将重新「界定」英伟达的股价。
以下内容由「新皮层」团队制作,欢迎关注。
Key Points
新模型
DeepSeek发布R1开源模型,对标o1;
Kimi发布k1.5模型,一个多模态的o1;
OpenAI推出代你操作网页的AI——Operator;
Character AI测试游戏功能,以提升用户黏性;
大公司动态
Meta员工称DeepSeek让Meta的生成式AI团队陷入恐慌;
Google将再向Anthropic投资10亿美元,以增加持股;
欧洲最大的大模型公司Mistral计划IPO并拓展亚太市场;
LeCun称5年内会出现人工智能新范式;
字节成立AGI团队寻找AI新范式;
特朗普提出5000亿美元算力计划,OpenAI和软银分别出资190亿美元;
字节否认2025年将在AI上花200亿美元。
新模型
DeepSeek发布R1开源模型,对标o1
1月20日,DeepSeek发布DeepSeek-R1开源模型,并且公开了全部训练技术。R1模型对标OpenAI的o1模型,在后训练阶段大规模使用了强化学习技术。DeepSeek宣称,R1在数学、代码、自然语言推理等任务上比肩o1。同时,R1的API价格不到o1的4%。一般而言,监督微调可以为模型的后续训练(如强化学习)提供一个良好的初始状态。DeepSeek团队指出,即使不借助监督微调,直接强化学习,模型也表现出了「反思」能力。另外,DeepSeek-R1遵循MIT License,允许用户通过蒸馏技术借助R1训练其他模型——通过让较小的模型模仿R1的行为,将R1的知识转移到小模型上。
Kimi发布k1.5模型,一个多模态的o1
1月20日,月之暗面发布多模态推理模型k1.5,也是第3个k系列模型。其2024年11月推出的k0-math只接受文本输入,专注于数学领域;随后12月推出的k1模型具备了视觉能力,还可以处理物理、化学问题;k1.5模型同样具有视觉能力,能力泛化至代码和通用问题,即具备了两种模态的推理性能。
OpenAI推出代你操作网页的AI——Operator
1月23日,OpenAI发布智能体Operator,这是一个可以替用户执行任务的AI智能体:它可以查看网页,并通过输入、点击和滚动的方式交互。OpenAI称,Operator可以处理各种常见的浏览器操作,比如填写表格、订购杂货,甚至是创建表情包,帮助用户节省日常任务时间。
Operator由一种被称为计算机使用代理(Computer-Using Agent, CUA)的新模型驱动。CUA将GPT-4o的视觉能力与强化学习的高级推理能力相结合,经过训练可以与图形用户界面(GUI)交互。具体来说,Operator可以(通过屏幕截图)「看见」、并与网页上的按钮、菜单、文本框等GUI元素「交互」,就像人类使用鼠标和键盘操作一样。如果遇到问题,Operator可以利用其推理能力自我纠正,遇到故障卡顿、需要帮助时,它会将控制权还给用户,就像自动驾驶一样。
Character AI测试游戏功能,以提升用户黏性
1月17日,有报道称,Character AI近日开始在其桌面端和移动网页版应用中测试全新的游戏功能,以增加用户黏性。这项功能目前仅向付费用户及部分免费用户开放,首批推出的游戏包括「Speakeasy」和「War of Words」。在「Speakeasy」中,用户需要在避免使用5个相关禁用词的前提下想方设法让AI角色说出指定单词。例如,要让AI说出「croissant」(可颂),但用户不能使用「pastry」(糕点)、「butter」(黄油)、「bake」(烘焙)、「French」(法式)和「flaky」(酥脆)等词汇。「War of Words」则是一场由AI当裁判的辩论对决,用户需在5轮比赛中与AI角色比拼辩论技巧。
大公司动态
Meta员工称DeepSeek让Meta的生成式AI团队陷入恐慌
1月23日,有Meta员工在海外匿名社区Blind爆料称,DeepSeek-V3模型让Llama 4 在基准测试中相形见绌,并且DeepSeek仅花了550万美元,这让Meta的生成式AI团队陷入恐慌。扎克伯格曾在2024年9月接受采访时称,Llama 4使用了超过10万块GPU。如果按照单块平均价格2.5万美元计算,其成本在25亿美元左右。此外,还要再加上服务器、交换机以及训练过程中的电费成本。「新皮层」获得的消息称,这一成本是国内一些大模型初创公司去年决定停止「预训练」方向的一大原因,它们连公司估值都达不到这一规模,更不要说融资规模。
爆料的Meta员工表示,公司领导们正在担心无法为生成式AI部门的高成本辩护。因为部门领导们的薪酬比DeepSeek-V3的训练成本还高,而且这样的领导有几十个。「它本该是个专注于工程的小团队,但因为很多人想来这里捞取好处,人为地抬高了招聘人数。」据称,Meta的工程师们正在疯狂地研究DeepSeek,并尽可能复制。
Google将再向Anthropic投资10亿美元,以增加持股
1月22日,有报道称Google已确定将再向Anthropic投资超10亿美元,以进一步增持该公司股份。此前,Google已向Anthropic投资20亿美元并持股10%。双方还签订了大额云服务合同。本轮融资后Anthropic的估值将达到600亿美元,成为继SpaceX、OpenAI、Stripe和Databricks之后第五大最有价值的美国初创企业。知情人士称,Anthropic 2024年的年化收入已达到10亿美元,较上年同期增长约10倍,不过目前仍未盈利。
欧洲最大的大模型公司Mistral计划IPO并拓展亚太市场
1月25日,有报道称,欧洲人工智能公司Mistral AI首席执行官Arthur Mensch在2025达沃斯世界经济论坛上表示公司「不会出售」,并计划推进IPO。同时,Mistral正扩展至亚太市场,计划在新加坡设立办事处。Mistral成立于2023年,由Google DeepMind和Meta的前研究人员创立,目标是成为OpenAI在欧洲的竞争对手,其生成式AI模型Le Chat受到广泛关注。去年,公司从General Catalyst等投资者处筹集到6亿欧元,估值达到58亿欧元。
Mensch表示,Mistral能以更低成本运行AI模型,希望吸引想要将数据留在欧盟的公司。然而,公司仍面临资金更充裕的美国对手的挑战,例如Anthropic和OpenAI,后者估值已达1570亿美元。Mensch强调公司资金充足,但他也表示,为了扩大规模,公司可能会寻求新的融资机会。
LeCun称5年内会出现人工智能新范式
1月23日,Meta首席AI科学家Yann LeCun在2025达沃斯世界经济论坛上表示,未来3到5年内,将会出现一种「新的AI范式」,其能力将远超现有的AI系统。LeCun认为,目前的AI系统在以下4个方面做得还不够好:理解物理世界、拥有持久记忆、推理和复杂规划。「未来几年内将会发生新的AI革命,我们可能需要给它起个新名字,因为它可能不会像我们今天理解的那样是生成式的。」LeCun说,他认为大语言模型的「保质期」只有3到5年。LeCun称其团队正在开发不同范式的AI,该系统可能具有一定程度的常识,通过观察世界并与之互动来学习世界是如何运作的。Meta在2024年2月发布了一种非生成式的世界模型架构V-JEPA。
字节成立AGI团队寻找AI新范式
1月23日,有报道称,字节在1月下旬正式设立代号为「Seed Edge」的研究项目,核心目标是比预训练和大模型迭代更长期、更基础的AGI(通用人工智能)前沿研究。该项目已拟定五大研究方向:
下一代推理:探索更高效且更通用、提升模型推理能力的方法。
下一代感知:找到统一生成和理解的方法,表征和压缩真实世界,构建「世界模型」。
软硬一体的模型设计:从软硬一体出发,探索Transformer+GPU之外的模型设计,发挥下一代硬件的能力。
下一代范式:在反向传播、Transformer架构、预训练+对齐的模式之外,探索更高效的模型结构和学习方法。
下一代Scaling(扩展)方向:在预训练和推理阶段的Scaling Laws(扩展定律)之外,探索Multi-Agent(多智能体)和Test-Time Training(测试时间训练,用以动态调整模型参数)等方向。
特朗普提出5000亿美元算力计划,OpenAI和软银分别出资190亿美元
1月21日,美国总统特朗普宣布一项名为「星际之门」(Stargate)的人工智能基础设施投资计划,内容是建设下一代AI所需要的物理与虚拟基础设施,包括分布在全美的数据中心。目前,该计划的首个数据中心已在德克萨斯州开工建设,未来计划在全美范围内建立更多园区。
「星际之门」由人工智能初创公司OpenAI、日本软银公司、美国甲骨文公司、阿布扎比AI基金MGX共同投资。软银CEO孙正义将担任星际之门董事长,而半导体公司Arm、微软、英伟达、甲骨文和OpenAI将成为「关键的初始技术合作伙伴」。
字节否认2025年将在AI上花200亿美元
1月22日,路透社报道称,字节跳动计划把1500亿元(约206.4亿美元)资金中的一半投入海外人工智能基础设施建设,重点集中在数据中心建设和网络设备购置方面。这笔支出主要流向芯片制造商华为、寒武纪以及英伟达。《金融时报》则报道称,字节跳动预计在2025年投入400亿元(约55亿美元)用于在中国国内采购人工智能芯片,这一金额较去年翻倍。此前,《金融时报》曾报道字节跳动计划投入120亿美元用于AI基础设施建设,The Information则称字节拟投入最多70亿美元用于采购英伟达芯片。
1月23日,字节跳动回应称,公司非常重视人工智能领域的发展与投入,但相关预算与规划传闻并不正确。
来源:第一财经YiMagazine