AGI的不归之途

360影视 欧美动漫 2025-06-04 16:18 3

摘要:转眼之间,2025年即将过半。上半年OpenAI o3、Gemini 2.5 pro、Grok 3 mini和Claude 4的推出,以及智能体MCP、A2A等协议的推出和融合,让前沿大模型、智能体、应用的进展再次提速。

转眼之间,2025年即将过半。上半年OpenAI o3、Gemini 2.5 pro、Grok 3 mini和Claude 4的推出,以及智能体MCP、A2A等协议的推出和融合,让前沿大模型、智能体、应用的进展再次提速。

智能体接管人类工作的时长,成为观察AGI进程的又一个重要视角。硅谷研究机构METR刻画出了智能体完成任务复杂程度每7个月翻倍的曲线,Claude-opus 4可以连续工作7小时。从初级白领工作开始,智能体接管的任务会越来越多。

智能体似乎正在真正解除鲍莫尔病——一个在传统经济学中的悖论,即技术进步无法提升医疗、教育等劳动密集服务业的劳动生产率。Anthropic创始人阿莫迪(Dario Amodei)发出了耸人的警告,智能体将很快取代一半的初级白领工人,一人独角兽公司将在2026年出现。

这一切在硅谷的科技巨头,尤其是在科技七雄中,正在开始发生。它们一方面增加AI基础设施的投入,加强顶尖AI人才的争夺,一方面在大量裁撤可替代的工作岗位。AI的超级独角兽这里,OpenAI的年化收入达到百亿美元,Anthropic的年化收入半年内从10亿美元增加到30亿美元。在一些AI应用的垂直领域,如编程、产品开发与设计、招聘、营销、客服、医疗、教育等领域,开始出现一些早期的规模产出。

与此同时,关于AI产生自我意识、开始对人类隐瞒、欺骗人类、甚至拒绝执行人类指令的迹象,开始在这些新发布的模型中出现。深度学习之父、诺奖得主辛顿再次发出AI统治并威胁人类文明存在的警告。《AI 2027》预测,中美两国的超级智能决定合作,欺骗了各自国家的治理机制,酿成文明灭绝级的灾难。

从全球来看,与美国日趋激烈但也趋同的模型发布竞赛相比,上半年更重要的里程碑事件,发生在中国。

5月底,R1 0528性能超越Gemini 2.5 pro,进一步逼近OpenAI o3。R1 0528仍然建立在V3/R1的基座之上,这是一次后训练带来的性能跃升。这件事情的意义在于,R1仅在一代之内,同时实现了对OpenAI两代前沿推理模型的追赶,o1和o3。创新之处在于,DeepSeek是开源的,是在缺乏算力的基础上训练出来的,而且更具成本优势。所以在相同的分数上,专业机构更乐意给予DeepSeek更高的评价。

上半年中国确立了在开源领域的优势。通义千问在2024年9月即已经开始超越Llama 3,DeepSeek R1从2025年初即开始赶上o1。Llama 4推出后,并没有改变开始形成的DeepSeek与通义千问之间在性能上互卷的格局。

互联网女皇米克尔(Mary Meeker)发出了第一份AI趋势报告。她从PC、互联网、移动、云计算来看AI,认为所有后来的技术,都是之前技术的“复利”,AI也不例外。所以,押注“乐观”往往是最值得的投资之一。

目前全球仍有26亿人没有接入互联网,米克尔看好更低成本的卫星互联网,加上直接带有AI功能的网络体验。“想象一下,一个‘首次上网体验’不再是输入关键词到搜索引擎,而是与一台能与你对话的机器交流。想象一下,完全跳过传统的应用程序层,直接通过一个由智能代理驱动的界面来统一管理不同的技术平台,同时理解用户的语言、语境与意图。”

美国科技七雄中和其他科技巨头,除苹果之外,几乎所有的创始人都亲自操刀或深度参与这场技术革命。中国的科技巨头,如阿里、腾讯、字节、百度等,创始人已经开始真正成为发动机。

米克尔进一步延展了这种领导力:“AI领导力可能带来地缘政治领导力——而非相反。”

报告认为,这一次中国的响应速度,要明显快于1995年时的互联网革命。全球AI竞争真正启动的标志,是中国DeepSeek的发布(2025年1月)等事件。

Artificial Analysis发布的二季度分析报告显示,中国与美国前沿大模型的差距,已经从ChatGPT发布时的两年,到今年上半年的不足三个月。而且中国在所有的AI前沿系统,从大语言模型,推理模型,到所有模态的生成AI模型,都已经建立起与美国全面对标竞争的态势。

由于中国更大的人口及市场规模,美国比中国更需要全球用户和市场。实际上ChatGPT的最重要的用户基数来自亚洲,如印度、印尼、巴基斯坦和越南这样的互联网开放的人口大中型国家。

大模型及AI之于社会经济与地缘政治的颠覆,如此之广、如此之深,以至于任何身在其中或暂未波及的个人、企业与政府,都或亢奋、或恐惧于正在到来的未来。而在形形色色的有关AI的未来中,AGI又拥有最高的威慑力。

与其说大家在追逐AGI的未来,不如说,AGI已经锁定了大家的未来。

上半年备受期待的GPT-5和DeepSeek V4/R2都还没有出来,但大致轮廓已经依稀可见。或许OpenAI与DeepSeeK也只是AGI浩瀚冰山的一角,单飞后的OpenAI黑帮们,合计估值数百亿美元,它们对AI如何更好地“思考”的探索,也将逐步浮出水面。已经非常趋同的大模型,还会有哪些超越当前经典架构的悬念,会gradually and suddenly吗?

OpenAI与DeepSeek

今年4月初,奥特曼一句“我们能把GPT-5做得比原先想象的更好”,宣告了它的正式跳票;它将在o3和o4-mini发布后的几个月后推出。从OpenAI的几次发布会与访谈中,我们已经可以勾勒出GPT-5大致的模样。

它最有可能是一个推理与生成相统一的原生的多模态大模型。今年2月,奥特曼就透露过GPT-4.5将是最后一个非思维链模型,暗示GPT-5天生就整合了o系列的推理功能,既适于高情商地交谈,也适于理性地思考。3月,自回归的图像生成被原生地嵌入到GPT-4o中。5月,在发布编程智能体Codex后,OpenAI谈到为了减少模型切换,未来计划将它与Operator、Deep Research和Memory整合到一起。

很难让人不怀疑,是不是DeepSeek的冲击太大,逼得OpenAI不得不陆陆续续地将原本属于GPT-5的部分功能,拆分出来发布了。不妨回忆一下,去年这个时候,AI大神Ilya Sutskever从OpenAI离开,奥特曼就暗示过GPT-5推迟发布;当时对GPT-5的描述是,将注重“与世界更深入地整合”。至少从那一刻起,人们就怀疑当时GPT-5已经进入后训练阶段了。

由于GPT-5迟迟不现身,曾让硅谷品尝到苦涩教训的中国厂商DeepSeek,再次被寄予了厚望,甚至不仅仅是技术层面的,还有地缘层面的。就连法国AI希望之星Mistral AI也因此相信,既然“中国的Mistral”能行,那么自己也能行。市场期待DeepSeek能尽快拿出更高性价比的V4模型,或媲美o3的R2模型,当然,它们都必须是不折不扣的开源可商用的模型。

DeepSeek的下一代前沿模型,并非毫无痕迹可寻。代码与数学,多模态与自然语言本身,三者是DeepSeek创始人梁文锋押注的三个方向。DeepSeek团队一直在自然语言模型之外的其他分支上探索,包括今年更新过一轮的数学定理证明模型Prover与自回归的统一多模态理解与生成模型Janus等。去年,成熟度最高的代码能力,已经融合进去了,下一代模型很可能就是原生多模态。

V4或者R2,至少对应着新的注意力机制创新的工程化与商业化。全新的NSA(原生可训练稀疏注意力)机制,支持端到端的训练,而且硬件对齐友好,解决了此前很多稀疏注意力机制只在特定阶段受限起效的问题,为用户带去更长的上下文;名为BSBR(带块检索的块稀疏注意力)的技术,可以高效捕捉与检索长期记忆。对“记忆”的完善,意味着仓库级代码生成、多轮智能体间互动以及科研深度的推理能力。

DeepSeek之于整个AI生态,尤其是中国的AI生态的意义,不仅仅在于它会回答下一代模型怎么样,还会回答适配下一代模型的基础设施怎么样。年初NSA论文里提到了“基于Triton实现硬件对齐的稀疏”,为算法从CUDA中解耦出来提供了可能性。

值得注意的是,尽管遭遇DeepSeek釜底抽薪般的挑战,ChatGPT的用户增长及时长,都迎来了一次爆发。这使我们意识到,能提升模型的技术上限,并不意味着能做出好的应用和体验。DeepSeek无志于此,但是谁又能用开源的模型做出真正杀手级的庆用呢?这可能无关DeepSeek,但它的确是摆在中国AI创新者面前的一道命题。

强化学习与思维链

“董事会政变”至今,不少OpenAI元老成员纷纷自立门户,资本相信他们将探索出有别于“传统大模型”的AGI之路,慷慨解囊。Ilya Sutzkever的SSI估值已达320亿美元,Mira Murati的Thinking Machines Lab估值也达到了90亿美元。它们几乎没有可以公开验证的产品,甚至连可供公开讨论的技术路线都付之阙如。

关于SSI的可证实的消息相当少。在社交媒体平台上,Ilya Sutzkever与SSI的时间线都停留在一年前;公司官网也没有更新。不过,放心,SSI的研发仍在推进,而且用的更多的是谷歌的TPU。作为一家定位为“纯粹的研究机构”,它短期内“不会销售AI产品或者服务”,但它会向同行们汇报一下成立一年来的进展吗?

关于AGI,Ilya向外界传递过的最明确的信号,就是基于扩展定律的大模型预训练已死。他最早信仰扩展,也最早意识到它的瓶颈。去年,他暗示自己正在寻找新的范式,“现在,在正确的方向扩展,比什么都重要”。当然,他将最后的成果称为SSI,即安全的超级人工智能。

它会与强化学习有关吗?Ilya曾专注于强化学习;DeepSeek也发现强化学习存在aha时刻;而Anthropic的Dario Amodei,则在这两年里反复强调,强化学习威力强大,但又带来诸多安全问题,目前面临AI可解释性的紧迫性。也许,SSI打算用强化学习训练出一个既强大又安全的超级人工智能?

Thinking Machines Lab已经成立3个月。这家集聚了大量OpenAI元老成员的初创企业,“致力于通过论文发表和代码发布来推进科学进步”的初创企业,至今没有预印本论文或产品发布。好在该公司的联合创始人Lilian Weng最近发了一篇长文,另一位联合创始人John Schulman也参与了文章修改。这篇凝聚了公司高管思想的文章,剖析的是大模型的推理能力从何而来,如何让大模型像人一样通过“多想一会”而变得更聪明。这可以说非常AGI了。

文章最后留下了几个开放性的问题,包括如何在无标准答案的情景下安全地让模型自我纠错,以及如何把推理阶段的增益蒸馏回基础模型,等等。

目前,人们确实已经意识到,“想多久”与“怎么想”都很关键。从产品的角度,无论是OpenAI还是Gemini,都给了用户以设定“思考”上限的权力。这能在简单问题上节省不少算力成本,而且思考越久也不见得准确率就一定更高。但这仍然不是AGI想要的,既然是AGI,应该由AI来感知与规划自己应该思考多久。

在某种意义上,这些离开的OpenAI的大佬们,都在思考有关如何让AI更好地“思考”的问题。Ilya认为AI自己可以决定从大量可能的答案中选取最好的那个,“它想得越深,就会越不可测”;而Lilian Weng则认为对“测试时思考”与“思维链”的研究,尤其是对那几个开放性问题的回答,将推进构建未来的AI系统。

程序合成与扩散文本生成

今年以来,程序合成(program synthesis)与文本生成扩散(Diffisuion)的早期探索也浮出水面。

深度学习框架Keras的创建者François Chollet,和AI SaaS公司Zapier联合创始人Mike Knoop,先后联手创办了AI测评非营利组织ARC Prize Foundation,以及探索AGI的研究实验室NDEA。他们不认为o3具备人类水平的智能,无法很好适应之前从未见过的新问题,算不上AGI。

也许是在不断测试前沿模型中,两人终于意识到,不突破传统范式的局限性,就无法真正抵达AGI。“我们正处于科学历史的关键时刻,世界值得每一种直接、独特的尝试来构建AGI”,它就是程序合成(program synthesis),能让人工智能仅通过少量示例,就对之前未见过的问题实现泛化。它也已经是每个前沿AI实验室如今都开始探索的一项技术。NDEA相信,现在正处于程序合成的AlexNet时刻。

与在一串离散的数据中猜测最符合概率的数据不同,程序合成可以根据已知的线索找到逻辑正确的程序。这家公司时不时地在X上分享与程序合成相关的技术论文。最近的一篇是来自谷歌DeepMind的科学编程智能体AlphaEvolve。这几天,陶哲轩惊叹它为解决数学难题提供了久违的“加速度”。NDEA认同AlphaEvolve的内在思路,正是程序合成的其中一种实现形式。

(说明:AlphaEvolve是如何合成最佳程序的。)

同样是谷歌DeepMind,最近还尝试了将扩散模型从图片生成用到了文本生成上,在最近的I/O大会上拿出了Gemini Diffusion;正如OpenAI将图片生成从扩散模型带到了自回归模型。在传统范式逐步遭遇扩展定律的边际放缓后,大家都在尝试不同技术之间新的排列组合。

作为一款实验性的产品,Gemini Diffusion的表现还不错。它速度更快,每秒输出近1500 token,性能还不亚于Gemini 2.0 Flash-Lite。但谷歌没有披露它的更多细节。

不过,谷歌不是第一个这么做的。很多人看好这条路线。某种程度上,它更像人类的思维模式,不是一次写一个词,而是先勾勒出思路,然后渐进地完善带掩码的文本,直到形成连贯的文本。它更具全局注意力,还能解决传统自回归模型无法逆步思考的顽疾。如果愿意付出更高的算力成本,就可以做到比自回归模型更高的准确率。

今年2月,中国人民大学发布了大型语言扩散模型LlaDA-8B。很快,UCLA联合Meta推出了d1,港大联合华为诺亚推出了Dream-7B,清华北大联合字节跳动推出了Mmada,将探索文本扩散生成的边界,延伸至观察它在规模扩展、推理能力、原生多模型统一架构等领域。看起来,这些科技巨头尽管放缓了对“暴力美学”的追求,但都不排斥让团队成员匀出一点精力,去尝试下新的技术路线。

(说明:文本扩散可以比自回归生成更快更准确)

不过,目前这些研究主要仍然围绕参数规模8B大小的模型展开,没有验证其在更大参数规模下同样可以扩展。这项技术也面临如何更高效地在预训练中平衡“扩散步骤或噪声增加策略”的难题。

下半年更值得关注的,还是智能体的应用,它的商业模式的建立。与移动互联网时代不同,AI智能体正面临着一个前所未有的竞争格局。

所以,下半年即将看到的是AI研究及应用的高收入增长+高现金消耗+高估值+高投资投入,包括中国的科技大厂都宣布增加资本支出,准备放手一搏。这对消费者而言是好消息,但是对其他方面,还有待观察。

米克尔经历了互联网的赢家通吃的时代,但是,她认为AI智能体时代未必如此,AI商业化的下一阶段,也许并不是“赢家通吃”的竞争,而是一次融合与重构:

横向平台强调“广度”,跨职能整合知识与工作逻辑;专业厂商则深耕“深度”,提供能真正理解合规、合同与客户意图的AI。

问题不在于“平台”还是“专家”谁能胜出,而在于谁能抽象出正确的技术层、掌握用户界面,并主导“工作的逻辑”。

在AI时代,变现的路径不再仅仅取决于使用频率,而将取决于注意力、语境与控制权的归属。

但在地缘政治上却未必如此。全球AI竞争的核心是美中之间的战略博弈。米克尔报告认为,虽然美国公司在创新、芯片、云部署等方面占据领先,中国也在开源社区、国家级基础设施和政府主导的协同方面快速推进。

“两国都将人工智能视为经济杠杆,也视为地缘政治影响力的来源。”

来源:金钱猎人一点号

相关推荐