冲破 AGI 迷雾,蚂蚁看到了一个新路标

360影视 欧美动漫 2025-09-16 20:27 1

摘要:2024年12月14日,温哥华会展中心座无虚席,ChatGPT之父 Ilya 现身大银幕,在全球 AI 顶会上, Ilya 向全行业预警:



大模型战场,走到了新秩序的边缘。

作者丨齐铖湧

编辑丨陈彩娴

01

2024年12月14日,温哥华会展中心座无虚席,ChatGPT之父 Ilya 现身大银幕,在全球 AI 顶会上, Ilya 向全行业预警:

「数据压榨已然到头,如果无法突破,AGI将难以实现。」

彼时,普罗大众还沉浸一场AI盛宴中,每天睁开双眼,就能体验到各种最新迭代的大模型。但台下观众眉头紧锁,作为全球顶尖AI学者,他们早已明白这位AI之神的言外之意。

AI时代,数据犹如工业时代的化石燃料,燃料挖掘殆尽,但AGI并未涌现,大模型领域,被迫走向新秩序的边缘。

通往AGI的路上,亟需找到一些新的方向。

埃隆马斯克率先出手,2025年中,这位“第一性原理”的忠实信徒,决定开启重写人类知识库的计划。用“提纯数据”的方式,尝试打开通往AGI的大门。

另一些资深学者,则瞄准了多模态。

斯坦福大学2025春季首次公开课上,AI 顶级研究者李飞飞抛出观点“视觉不仅是智能的一部分,更是智能的基石”。

不久后,众多科学家们一呼百应,逐一验证“听说读写”等等多种模态,Open AI也发布GPT-4o ,大家期待模型像人类一样感知与thinking后,能带领人类瞥见AGI的大门。

但无论是马斯克的“提纯数据”论,还是多模态的尝试,都依然沿着现有的自回归(AR)路径,在做小步迭代。

业内逐渐出现另一种声音:自回归到底是不是通往AGI的唯一路径?

无人能做出确切回答,但大洋对面,早已有一群年轻学者开始尝试新范式。

2025年9月11日,上海外滩大会人潮涌动。

在年轻学者含量最高的AGI见解论坛上,蓝振忠和李崇轩官宣了 LLaDA-MoE 的发布。不同于市面上主流模型,这是一个基于扩散理论的新范式。

李崇轩(左)、蓝振忠发布LLaDA-MoE模型

最近一两年,AI 发展迅猛却极端割裂。

曾经出现过滑稽一幕,某个大模型一边已经发展到能秒杀人类博士生和奥数金牌得主,另一边却连简单的中译英“美国总统拜登……” ,都翻译错误 “US President Boo-”。

这是因为AI 为了追求速度,翻译时不得不“边听边猜”,但一旦开头猜错就无法收回。

出现人名截断、语义颠倒尚可接受,但AI 在严肃的医疗诊断领域也时常闯祸。

明明是“左肺下叶见结节,右肺未见结节,直径12 mm”,但由于AI “失忆”属性,导致左右肺判断颠倒。这些问题的出现,让很多研究者对当前大语言模型(LLM)的方向提出质疑。

上海 AI Lab 的90后青年科学家付杰,在公开场合直言:“他不觉得当前大语言模型的路子是对的”,因为“现在这样搞出来的LLM根本不懂它为什么能输出某些答案,本质上可能还是靠记忆”,清华计算机系的崔鹏教授也曾提出质疑,LLM是否真能理解什么是“数”。

这些基本错误的出现,要归结于一个原因:底层架构。

当下主流的大模型,底层架构几乎清一色采用自回归生成范式,它的特性是单向建模。

单向建模的原理,是从前往后吐出一个个 token,用上一个字预测下一个字,因为只能从左往右的局限,就导致一个严重的缺陷:

这样的大模型,既没有逆向思维,也无法提前看到事物全貌。

科学家很早就意识到这个巨大缺陷。两年前,来自英国前沿人工智能工作组、纽约大学、牛津等机构的研究小组发现:一个训练于「A是B」的语言模型,无法推理出「B是A」。

他们向大模型提问,大模型明明知道「汤姆·克鲁斯的母亲是Mary Lee Pfeiffer」,但就是无法答出「Mary Lee Pfeiffer的孩子是汤姆·克鲁斯」。

论文地址:https://owainevans.github.io/reversal_curse.pdf

这个现象被写成论文发布后,不少研究者们复现实验,并将参数从350M扩展到175B,但「AB逆转」问题依旧无法解决。

大家逐渐意识到,这是自回归范式问题,是底层架构问题。

后来,靠着堆算力、打补丁,引入深思考 Deep Research 模式,这个缺陷被暂时掩盖,各大模型头部厂商还是以日更周更的速度,迭代各种大模型。

02

但随着深思考模式的出现,自回归范式的缺点不仅无法掩盖,并被放到更大,蓝振忠将自回归(AR)生成范式的内在缺陷,总结为三点:

01 生成速度正比于输出长度(长文本速度慢)

02 缺乏双向建模能力。

03 缺乏直接修正错误能力

蓝振忠从谷歌回国后,加入西湖大学,后创立西湖心辰,现担任蚂蚁通用人工智能研究中心主任、西湖大学特聘研究员。在意识到自回归内在缺陷无法解决,AGI将“撞墙”后,蓝振忠开始思考另辟蹊径。

他注意到另一个范式:扩散(Diffusion)

蓝振忠意识到,自回归模型是从左往右预测下一个字,原理是逐步的条件概率;但扩散模型是在去噪过程中逐渐逼近数据分布,在并行中由粗到细去动态修正答案。

二者区别,类似于分别一根钢笔单独画画和好几支铅笔同时画画,钢笔必须一笔画成,但在扩散模型里,你可以用多根铅笔从一个简单的草图开始,逐步添加细节,并且随时可以用橡皮修正画面。

自回归的生成范式

扩散语言模型的生成范式

这意味着扩散生成模型在生成端,有三个特征正好弥补了自回归生成范式的缺点。

第一,扩散模型能做到并行解码,长文本的推理迭代和算力利用率都更高效。

第二,能够双向建模的优点,让扩散模型不仅避免了翻译场景下“边听边猜”和自回归模型无法「AB逆转」的缺陷,在多种模态场景中表现也更好。

第三,扩散模型能做到迭代修正,在生成代码等场景下,能够直接部分片段错误,不需要每次都重新生成。

与此同时,在数据的预训练中,扩散模型也有不少优势。

它类似于完形填空,随机扔掉一些词,然后填空。这意味着,同一份数据,自回归只能训一两遍,但扩散语言模型可以拿掉不同的空,多次训练。

蓝振忠举了一个例子:

“比如你拿到一本书,如果只是逐字阅读下一个字,你对书本内容的理解是有限的,但是如果每次都能往回看一下,那么你对书本的理解是更深的,你能学到的东西肯定更多的。”

从生成到训练都有优点,让蓝振忠对扩散语言模型有了极大的信心。

同时关注到扩散模型优点的,还有李崇轩。

李崇轩来自高瓴人工智能学院,连续做了很多基于扩散理论的文到图、文到视频的基础研究,是扩散模型方面的知名学者。

之前,大家都以为扩散模型是用来生图的,把扩散模型用到语言上看似不可思议。但在他看来,把扩散模型和语言结合,是很自然的想法。

李崇轩告诉雷峰网:扩散模型第一次提出是2015年,他一开始就关注并跟进研究,2021年,扩散模型在生图领域被证明可行后,越来越多学者和教授关注扩散模型。

“在大语言模型中,主流观点是从左到右的顺序,虽然是实际使用非常优的策略,但它的前提是不需要逆向思维,或者不需要反复打磨的情况下。”但李崇轩隐约感觉到:

“从左往右,并不一定是理论最优解。”

从理论基本准则上看,大语言模型源于生成范式,而非自回归独有,存在其他路径的可能性。

2022年,李崇轩敏锐地觉察到“把扩散模型应用到语言领域,理论上是可行的”,于是带着学生开始了深入的探索,开始尝试把扩散用到语言上。

“当时在机器学习领域里面,只有很少一部分人在做这个事情。”

2024年,OpenAI华人大牛宋飏靠着扩散模型领域的研究,火爆出圈,同一年,他的博士导师斯坦福大学Stefano Ermon教授也发了一篇关于扩散模型的论文,被业界称为扩散模型的“GPT2时刻”。

如此多顶尖学者都在关注扩散模型,让李崇轩非常兴奋,他想站在巨人的肩膀上,将扩散模型在语言方面再向前推进一步。

但要去做一个全新范式的原生大模型,对身处高校的李崇轩来说太难了。高校的算力,工程能力,数据资源等方面都非常局限。

但幸运的是,因为一些校企合作中,李崇轩跟蚂蚁集团有很多交集,校企合作结束后,双方还一直保持很好的联系。

去年以来,蚂蚁集团持续加大AGI的基础研究,在主流模型架构基础上,加强了前沿技术的实验。蓝振忠出任蚂蚁通用人工智能研究中心主任后,开启了对AGI更纯粹的探索之路。

因为把扩散模型用在语言上的想法高度重合,李崇轩和蓝振忠开始密切交流,世界线开始收缩。

蓝振忠跟雷峰网表示:“过去我们(蚂蚁)想做这件事情,我其实一直在找这个方向非常优秀的人,李崇轩老师我们是一拍即合。”

2025年 2 月份,蚂蚁和高瓴人工智能学院合作推出了 LLaDA 模型,将扩散语言模型(dLLM)扩展至 8B 参数规模。

比起现在动辄千亿、万亿的模型来说,LLaDA 模型大小和榜单数据远远落后,但和业界主流的自回归(AR)生成范式不同,它是一个原生的扩散语言模型。

“它意味着我们从一个非常非常迷你的原型系统,一个根本不能说话的原型系统到一个能说话的东西,其实大概一年多就走完了。”

李崇轩谈到 LLaDA 的诞生过程,眼神坚定,语速很快。

其实,这个从头开始训练的新范式模型,不仅“能说话”,还实现上下文学习、指令遵循,在多轮对话方面表现也不错,性能对标 LLaMA 3 。

LLaDA 的出现,像是插在山坡上的一面旗帜,让业内无数学者看到,语言模型在自回归范式外,似乎还有别的路线走得通。

LLaDA 发布之后,李崇轩和蓝振忠带着团队开始了进一步探索,几个月后,对齐能力更强的LLaDA1.5和多模态版本的 LLaDA-V又先后落地。

这些自回归模型里能做到的,扩散语言模型领域也在慢慢补齐。

用李崇轩的话来说:“我们想把前期能蹚的路都蹚了,这样才能让更多优秀的人,进入到扩散语言模型。”事实上正是如此,业内越来越多人开始关注 LLaDA ,并把它作为基础或主干模型来进一步微调或扩展。

但“蹚路”并不容易,一个模型想要真正大规模应用,除了模态和对齐能力等,还必须要做到规模化扩展(scaling)。

经过之前无数自回归模型的验证,要做到 scaling ,MoE 是一个必要环节。

MoE 简称“混合专家模型”,是最近大模型领域的热门词汇,简单地说是让不同“专家”回答不同问题,可以在保持相似算力消耗的前提下,让模型扩容变大。

因此 MoE 模式,也是 LLaDA 做大做强的路上绕不开的难题。

MoE 本身很难训,外加扩散语言模型不仅是新范式,还是基于稠密架构。

“在一个新的东西上叠加一个很难训的东西,难上加难。“

李崇轩谈到训练 LLaDA-MoE 的过程提到:“一旦某一行代码数据处理不对就崩了,我们前面拖了两个月,就是不收敛。”

但好在蓝振忠和李崇轩团队,吸收了诸多此前蚂蚁智能探索的经验。

在之前的训练AI架构中,蚂蚁的工程团队有很强的积累,通过自研 ATorch 训练框架,已经具备专家并行(EP)等一系列并行加速技术。

不久前,蚂蚁百灵大模型团队开源了自回归MoE大模型Ling2.0,在训练过程中,产生了一组20T的高质量数据。

这组数据,成了蓝振忠和李崇轩团队关键的突破口。

如此高质量的数据加持,大大加速 LLaDA-MoE 的研发过程。

2025年9月12日,LLaDA-MoE 正式版发布。

LLaDA-MoE 的总参数量为 7B ,激活参数量为 1.4B。在约20T数据上,这个从零训练 MoE 架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性。

通向AGI之路,蚂蚁踏出了新的一步。也意味着在把 dLLM 训扩到更大规模的路上,国内团队又往前走了一步。

在参与 benchmark 测试中,LLaDA-MoE不仅超越了不少开源稠密 dLLM 模型领域前辈,比如 LLaDA1.0/1.5 和 Dream-7B。而且 LLaDA-MoE 还追平了Qwen2.5-3B 。

这意味着,稠密扩散语言模型和同数量级训练的稠密自回归模型,可以坐在同一桌掰手腕了。




更重要的是,从 1.4B 激活参数、2 倍多参数稠密模型的等效比看,LLaDA-MoE 验证了一件事:

MoE 架构的放大效应,在扩散语言模型上同样奏效。

这为业内在扩散语言模型的 scaling 上,指出了一条明亮的路。

尽管 LLaDA1.0完成了从零到一, LLaDA-MoE 更是里程碑般的存在,但在登山的路上,LLaDA-MoE 还有太多的路要走,蓝振忠谈到LLaDA-MoE 需要克服的困难,滔滔不绝。

“比如在速度上,理论上比自回归好,但现在自回归每秒能吐300个token,但扩散语言模型开源最好也只能吐50个;再比如规模上,虽然可以做到 MoE 了,但更大的规模怎么跑?比如我们这次还没做类似于block diffusion等等,下一次······”

03

采访尾声,李崇轩再次提到了“蹚路”,我们想把前期能蹚的路都蹚了。

“这个方向需要更多聪明的人参与进来,就像自回归模型的发展依靠了全世界的贡献,扩散语言模型的发展同样需要借助社区的力量。”

因此,LLaDA-MoE在发布的第一时间,就把基础模型版 LLaDA-MoE-7B-A1B-base 和指令微调版 LLaDA-MoE-7B-A1B-Instruct两个版本全部开源。

HuggingFace 链接:https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-base

GitHub 链接:https://github.com/ML-GSAI/LLaDA

除了模型权重外,团队还将同步开源针对 dLLM 并行特性深度优化的推理引擎。相比 NVIDIA 官方 fast-dLLM,该引擎实现了显著加速。

不仅如此,蚂蚁还在持续投入包括基于dLLM的AGI领域,在下一阶段,将联合学界和全球AI社区共同推动AGI新的突破。

发布会结束后,有媒体问到蓝振忠:

“听下来这是一个非常前沿的探索,蚂蚁拿出来资金和精力投入如此前沿的领域,万一未来种花得豆怎么办?”

蓝振忠这样回答:“如果不去探索那些在别人眼中可能充满风险的领域,(我们)就只能永远跟随他人已经确定的路径前进。要提升智能的上限,就不能一直 follow。”

当巨兽仍在摩挲旧地图,微光已悄然改道。这是蚂蚁AGI的回答,也是一位位年轻学者的回答。

来源:大力财经

相关推荐