ICLR 2025:顶尖科学家最关心的 AI 趋势有哪些?丨GAIR Live

360影视 欧美动漫 2025-04-28 11:19 2

摘要:自 GPT-4 发布至今已有两年,但对大语言模型的研究并没有放缓,我们仍处在一个技术进步涌现的时代。Anthropic 于 2024 年11月发布 MCP,成为接通 AI 生态的桥梁,自主的 Agent 工作流距我们更进一步。GPT-4o、GPT-4.1时隔仅

自 GPT-4 发布至今已有两年,但对大语言模型的研究并没有放缓,我们仍处在一个技术进步涌现的时代。Anthropic 于 2024 年11月发布 MCP,成为接通 AI 生态的桥梁,自主的 Agent 工作流距我们更进一步。GPT-4o、GPT-4.1时隔仅一个月先后发布,实现上下文处理能力八倍提升。在国内,DeepSeek 凭借FP8 混合精度训练引发行业震动,Manus发布号称全球首款通用Agent,先后在今年年初掀起全民AI热潮。

前沿方向尚未收敛,技术突破纷至沓来。以月为单位的技术迭代下,如何看清AI行业的最新趋势?

2025年4月26日,雷峰网、AI科技评论 GAIR Live 品牌举办了一场主题为 “顶尖科学家聊 2025 ICLR 最近趋势” 的线上圆桌沙龙。

圆桌主持人为雷峰网高级主编马晓宁,并邀请了南洋理工大学校长讲席教授,人工智能系主任,人工智能交叉研究院院长安波、浙江大学计算机学院百人计划研究员赵俊博、清华大学AIR研究院助理教授赵昊、埃默里大学计算机系副教授刘菲,共同开启了一场深度对话。

交谈过程中,嘉宾们围绕AI技术加速迭代下,LLM决策系统发展及应用方向、Agent前沿趋势、Scaling Law的前景、Diffusion及新模型架构的可能性等多个方面发表了独到见解。

从GPT-4开始,更大规模、更高质量的样本使模型智力不断提升,LLM的能力边界逐步拓展。然而,数据枯竭的隐忧也徘徊在Scaling Law的路径尽头。不久前,David Silver和Richard S. Sutton两位顶尖人工智能技术专家联合发表论文,指出从人类数据中提取的知识正迅速接近极限,高质量数据源大多即将耗尽。

Scaling Law是否已经走到尽头?

对此,赵俊博表示需要对不同领域分别考虑。高质量数据的耗竭已成定局,预训练首当其冲。“人类最高质量的一批token加起来有10~15T,DeepSeek-V3用了14.8T。在这15T数据的基础上,如果接受比较高质量的合成数据,再把数据质量的门开得稍微大一点,差不多能扩展到25~30T,再往上就很难有更多的数据塞进来了。”

有业内人士向AI科技评论指出,当前大模型及大模型产品发展的技术源动力仍为预训练,它直接关系到模型的智力水平。25~30T是预训练数据的上限,也或将成为LLM的天花板。

当算力和样本不足以筑起走向AGI的通天塔,技术层的创新点会成为AI行业迈向下个台阶的关键一招。

回头再看,刘菲对有限数据的分配提出了追问。“现在大家在做基础模型的时候,基本上是把能够拿到的无论是文本还是其它模态的信息,几乎是一股脑地放在预训练当中。然后在后训练阶段,对于不同的领域,会有专门的数据。其实我们可以重新思考一下这个问题,有没有可能有一种比较好的方法,能够把数据在预训练和后训练中合理地分配,最大化地提高模型能力。”

任务创新同样富于潜力。Predict the next word一直是训练大语言模型的出发点,以完成这个任务为导向,模型性能实现了速度、指令遵循、推理能力等方面的全方位提升。刘菲提出:“现在我们能不能通过在任务上的创新,提出新的task,帮助我们提高模型的后训练效果,或者模型在某一个领域需要的特定能力。”

以下是此次圆桌讨论的精彩分享,AI科技评论进行了不改原意的编辑整理:

技术迭代,AI “狂飙”

AI科技评论:这次我们沙龙的主题是顶尖科学家聊 2025 ICLR 的最新趋势。我们请到了四位嘉宾,分别是浙江大学计算机学院百人计划研究员赵俊博、南洋理工学院校长、人工智能系主任安波、埃默里大学计算机系副教授刘菲、清华大学AIR研究院助理教授、光轮智能首席科学家、智源学者赵昊。今天把四位老师请过来,希望可以跟大家分享一下我们在 ICLR 有什么样的见闻,以及对于接下来人工智能走向和趋势的预测。

我想问四位老师的第一个问题是,大家觉得今年的 ICLR 跟往年比有什么不一样的地方?

赵俊博:我上一次来 ICLR 已经是很多年前了。这个会其实是从我们NYU的实验室split off出去的。14年刚开始的时候也就几百篇论文,没想十一年过去变化会这么大。所以我今年最直接的感受就是人多、论文多、会场大。当年的poster要讲四五个小时,因为当时其实没有那么多的poster,但现在的poster已经压缩到了两个小时的极限。

安波:今年更大一些,有很多来自中国的老师和同学,内容也特别多。今年组织注册那个地方要排一个小时才能领到这个牌子,另外会场显得更加拥挤,通道也比较窄。 我个人觉得这个会太大了,当然也证明这个会的质量很好,来了很多优秀的人。

刘菲:我去年参加了在维也纳的 ICLR 会议,想把去年和今年的做一个对比。我感觉今年的论文在深度和广度方面都是非常棒的,首先我看到了很多非常好的LLM潜在的落地相关的应用。另外一个我注意到的现象是,今年有非常多金融领域的公司作为我们的赞助商。所以我个人也很期待,大模型将来在金融领域能有什么样的突破性的发展。

赵昊:我前年去了基加利(卢旺达首都Kigali,编者注)那场,给我印象特别好。当时也是疫情后第一次 ICLR,能感觉到无论中国人还是外国人都很兴奋。两年以后再来,我觉得很意外的就是赞助商怎么这么多。因为最近几次去 CV 的会议,赞助商的数量好像都有些变少。

AI科技评论:赵老师您今年带了几篇论文过来?

赵昊:今年就带了一篇论文,是做 Conditional Image Generation 的。我的研究方法论是我们生成一些数据,然后用这些数据去训练更好的感知和决策模型。我们用 reward modeling 的方式,用diffusion从各种控制信号生成图片,让它做得更好。

AI科技评论:四位老师今年在会场上肯定看到了一些论文、演讲或者 poster。这些内容里有没有令你们印象深刻的、有趣的、好玩的东西,可以跟我们分享一下?

赵昊:那我就讲一讲我们圈子里今年一些有影响力的 paper。第一个就是今年会上的最高分 IC light,也是比较少见地拿到了满分。这个工作非常有意思,它在diffusion 里把光照做得很好。

一般大家会认为无论image diffusion还是video diffusion,生成出来的东西都不可控。目前的生成在几何和物理方面表现都不好,但IC light居然能把光照做好,这件事是非常 surprising的。同时它也是一个很好的轮子,我和很多朋友最近都在用 IC light做光照控制的工作。在CVML领域,真正有影响力的paper 是能帮助别人的paper。

我觉得IC light有影响力,最大的原因是它超前于时代。我经常跟我的学生们说,我最钦佩的科学家是能发现超越时代的、带着艺术性和灵感的东西。最典型的就是孟德尔,他在DNA双螺旋结构被发现之前300 年,就能够用设计巧妙的实验发现豌豆育种出现不同性状的比例是3:1。可能在300年、100 年、50年之后,大家看这个技术也就是那么回事,但他们就是能超前于时代把它做出来,而且还非常有实用价值,我特别喜欢这样的工作。所以在3D scene understanding and synthesis这个领域,我今年首推IC light这篇满分论文。

刘菲:我自己比较感兴趣的方向是基于大语言模型的决策系统、规划系统和推理系统。决策系统是一个蛮重要的方向,现在越来越多的用户开始问大语言模型一些复杂问题。

我可以举一个最简单的例子,比如买咖啡机有非常多的选择,可以买一个非常便宜的咖啡机做dripping coffee,也可以买一个高档一些的。大语言模型根据用户需求进行辅助决策,这就是一个非常简单的决策系统。但同时也会有一些更为复杂的决策系统,比如家里的小孩升学,在择校的时候会有非常多因素需要考虑,包括学校的地理位置、师资情况、排名、学生自身更适合哪种学校。很多时候大家只是把这些信息直接传达给大语言模型,它当然会给一个答案,但是我们没有办法验证这个决策是不是最合适的。针对单一事件做单一的决策,传统上我们基于分类器或者决策树,配合训练数据,大语言模型已经可以很好地进行辅助决策,但复杂的决策系统目前仍然是黑盒状态。

一个我们比较感兴趣的方向是如何把这两种系统集合在一起。基于传统的机器学习得到的分类器非常robust,但是只能应用于特定的任务上,而基于大语言模型的决策系统可以达到特别高的灵活性,我们想把这两种决策方式结合在一起。我们有一个系统叫做Define,主要是在金融领域针对月报或者年报,给出投资建议。

还有一个我们特别感兴趣的方向是sequential decision making,它应用于我们需要做一连串决定的场景。我举个简单的例子,如果我想制定一份新加坡旅行计划,那我首先要决定买什么时间的机票、宾馆订在什么地方。同时我要参加ICLR,每天都会有具体的行程安排。把这一连串决策放在一起,需要一个非常复杂的系统。这个决策系统需要optimize goal,可能是多找时间和大家交流,也可能是控制有限的预算,这样它才能做出最适合我的决策。说到这个,安老师有一篇paper叫Agent Studio,我特别喜欢,也希望能够听安老师讲一下这个工作的细节。

安波:谢谢刘老师。这项工作的技术性不是特别强,我们做了一个能够提供很多benchmark场景的工具,并做完了整个pipeline,可以让大家更容易地开发Agent。

我个人这两年更关注推理RL怎么和大语言模型结合在一起,以及Agent的研究。大语言模型这个概念已经出现好多年了,现在应该到了我们开始思考它落地的时刻,所以我会特别关注它在垂直领域落地方面的事情。我看了一些session,这方面的工作相对前两年还蛮多的。

刘老师刚才讲到决策系统,这也是我们所关心的。这方面有很多挑战,比如多模态的推理。4月份新加坡一座房子失火,一人死亡,还有20多人受伤。我们把几张照片发给GPT,问他能不能做一份现场处置应对的规划。我们发现GPT的规划里有很多问题,体现出它的推理能力不够。比如照片上明显显示很多小孩子受伤了,但是它推荐伤者去中央医院,实际上新加坡有一个很好的儿科医院叫KKH,离火灾场景只有3公里。

让大模型从视频里检索出必要的信息,基于这些情况进行复杂推理,这是我们未来特别想做的事情。我们希望它能规划消防人员怎么进场,需要它考虑现场视频、图片、报案的音频,再把起火大楼的平面图结合到决策中。怎么让这些技术真正地解决现实问题,还有很长的路要走。这是很有挑战的事情,但是有很多真实的应用需要。

赵俊博:我接着刚才安老师的话说。post-training的scaling是在去年九月份左右,从GPT-o1开始出现的,而ICLR的截稿日期是10月2号,所以基本上在这次的poster里很难看到跟后训练或者RL相关的工作。

这个年代发展太快了。去年10月ICLR截稿,现在文章才正式面世,但其实从去年10月到现在已经发生了太多事,包括GPT-4.5、MCP、GPT-4o生成与理解统一的非常炫目的生成效果、国内的Deepseek等等。当年ICLR出现其实是为了缩短文章面世的周期,但是现在这个周期是不是还是赶不上形势的变化,是不是需要把这些 conference 的形式再重新思考一下。

安波:现在整个pipeline还是需要三个月甚至以上,也许可以再缩短一些。

AI科技评论:我们也感觉这大半年的时间天翻地覆。赵老师你在去年九月份的时候,当时设想今年年中可能会有哪些变化?

赵俊博:我觉得有些事肯定变了,但有些事其实也没变。我对团队说的一句话就是,我们现在做很多东西都是拍脑袋。比如安老师刚才说的这个场景,虽然它很难,但其实有两种路径解决这个问题。第一种路径是multi-agent,比如可以专门做一个Agent解决消防车的调用,最后整个决策体系中穿插着各种Agent。但同时有些其他的问题可以依靠模型的底层能力直接解决。

我们可以看一下LangChain的发展,他们一开始面向multi-agent编排的技术做了很多东西,但关键是现在的base model太强大了,导致这些东西好像有一些就没有意义了。这就涉及到一个问题,有些事两年之内base model 能不能解决掉。如果不能就坚持投入,如果能解决,那我们是不是可以把这方面投入稍微退一步?关键是基于现在这种非常疯狂的变化,判别在两年内能不能解决,我感觉比较难做。

Scaling Law 走到尽头了吗

AI科技评论:最近对 Scaling Law 的讨论非常多。我也想请教一下四位老师的答案,Scaling Law 到底有没有走到尽头?

赵俊博:我觉得要拆领域来看。首先从 Pre-train 的角度来说,我认为已经到头了,因为确实没有数据了。人类最高质量的一批 token 加起来有10~15T,DeepSeek-V3用了14.8T。在这15T数据的基础上,如果接受比较高质量的合成数据,再把数据质量的门开得稍微大一点,我觉得差不多能扩展到25~30T,再往上就很难有更多的数据塞进来了。

Post-train方面,大家现在还是大幅依靠数学和代码这种可校验的数据。那么关键的问题是,物理、法律、心理等其他学科的数据能不能用,以及 Reward model 或者 Process Reward Model 这些相关技术能不能继续发展。或者还有没有新类型数据,比如说股票、游戏交互这些数据能不能拿来训练大模型。

其它结构上,Diffusion Language Model 暂时没有跑出 Scaling Law,我们现在看到7B、8B 有一些效果,但是非自回归的新方法还是值得期待的。

安波:我赞同赵老师的观点,我觉得Scaling Law好像要到尽头了。我们先说最近火的post training inference,它还是需要数据,需要得到那些reward signal。有人会说我们搞一个world model,但 world model也得用数据来训练,MPC建那个model,还是得从数据里面来。

刚才赵老师谈到了多智能体,有一个思考是有没有 Multi-Agent Scaling Law,我感觉这个也不存在。我是做传统多智能体的,我们发现并不见得智能体的数量增加,性能就会好,因为数量的增加会导致很多协调、通信方面的问题。我个人觉得学术界的人没有必要执着于研究 Scaling Law 是不是要走到头了,因为这个问题已经吵了很多年。

赵俊博:有没有 Scaling Law 都可以去做 research,这没什么直接关系。

刘菲:我非常同意安老师和俊博老师的想法,这里我可以再补充两点。

第一点我认为可能有一个方向还可以再深入挖掘一下,就是在谈到数据的时候,什么样的数据应该放在预训练当中,什么样的数据应该放在后训练当中。现在大家在做基础模型的时候,基本上是把能够拿到的无论是文本还是其它模态的信息,几乎是一股脑地放在预训练当中。然后在后训练阶段,对于不同的领域,会有专门的数据。其实我们可以重新思考一下这个问题,有没有可能有一种比较好的方法,能够把数据在预训练和后训练中合理地分配,最大化地提高模型能力。

另外我对 Reverse Scaling Law 也很感兴趣,我想补充的第二个方向是,在数据一定的情况下如何提高模型的能力,尤其是模型在具体任务上的能力。我们训练大模型的初衷是 predict the next word,这个任务本身并不是很重要,其实是通过这样一个简单的任务达到训练模型参数的效果。那么现在我们能不能通过在任务上的创新,提出新的task,帮助我们提高模型的后训练效果,或者模型在某一个领域需要的特定能力。我认为这两个方向,也许可以再深入挖掘一下。

像刚刚两位老师提到过的,大部分大家能够获得的高质量数据几乎已经被用掉了。这两年大语言模型持续不断地生成新的文本、图片,短视频,以后我们能够拿到的数据,会有很多是模型生成出来的。如果我们不加思考地直接用这些数据训练大语言模型,我不太确定对于模型究竟有没有质的提高。

安波:我稍微补充一下。我们 NTU 前两天邀请了一位 EPFL 的老师,他就研究这个问题。未来的数据全部是大模型产生的,一代一代地迭代下去,这个世界会变成什么样?他做了一些实验,因为是模拟所以每一代的间隔都要短得多,但是他觉得这将来会对人类的价值观,甚至一切都带来很大的变化。

赵昊:在 Vision 领域,大家比较痛心疾首的是我们还没有发现 Scaling Law。之前我们做了很久自监督的表征学习,也是想复现NLP领域的成功,但普遍认为结果不是特别成功。很多人认为这是信息密度的原因。Language 的信息密度更高,更容易出现 Scaling Law,而 vision 需要压缩信息。

我觉得 VLA 有可能在未来一段时间内看到 Scaling Law,这是非常 promising 的一件事情。我们现在做 VLA,一般是用遥操作数据做动作,做完以后复原,再重新采集数据。其实每一条数据都是差不多的,但是就用这些差不多的数据训练,50条的时候是不 work 的,200条的时候一般刚开始 work,500条数据的时候就非常 work 了。我也不知道为什么,但感觉很像 GPT 出来的时候 NLP 领域那种模模糊糊的感觉。我觉得随着这些数据积累得越来越多,也许未来12个月、24个月、36个月,突然我们的 VLA 就能做出非常灵巧的东西。

AI科技评论:刚才赵老师提到的一个问题我很好奇。您说我们有很多行业性的数据,其实现在还没有办法用来训练,是这样吗?

赵俊博:至少在今天,通过各种技术报告我们可以看到,大家后训练的主体数据还是数学和 code,这是因为我们需要一个非常明确的 reward 计算公式。数学是比较容易算 reward 的,coding 可以跑个 OJ,也有比较明确的 reward 计算方式,这些肯定是最高级的数据。次一级的数据可能需要一个 model,不管叫它 judge model 还是 reward model,总之得对模型给出的结果和实际的正确答案进行比较,这对数据的要求还是挺高的。比如你算出来答案是5,模型的输出是5,那5是不是等于5,这就是一个 reward。我觉得强化学习在大语言模型上面的空间还是比较大的,后面还是有不少事可以做。

赵昊:我有一个关于 NLP 的问题想请教一下赵老师。我以前读书的时候,大家会管 Alexnet 这种模型叫 backbone,然后会在 backbone 上做 fine tuning。现在在 NLP 领域,大家一般会管 backbone 叫 foundation model,然后后面叫 post training。现在我们定义的 post training 和 fine tuning 的区别是什么?

赵俊博:我本来想回答这两个不是一个意思,但我后来想,SFT 好像也在 post training 的范畴里。我不确定现在是不是还在,大家的术语一直在穿插。

安波:我的理解是 post training 的概念更广。Fine tuning 早期可能只有 SFT,后来加入了 RHF,但是没有把 test time 那些囊括进去。现在用 RL 做的 inference、reasoning,是不属于 fine tunning 的。

模型架构尚未收敛,Diffusion 未来可期

AI科技评论:我们最近一直比较关心一个问题,扩散模型和回自回归架构在生成任务上各自有什么优劣?

赵俊博:我个人比较看好 Diffusion。我说的不是直接用一个 Diffusion Model 生成图像,我觉得 Diffusion 是个很大的概念,它可以 diffuse 很多东西。

比如清华大学朱军老师做的 RDT,整个机器可以用 Diffusion 在坐标空间的几个目标点上跑扩散过程。还有谢赛宁他们做的 Meta Query,它可以理解图像和文本,同时外接了一个 Diffusion Model,通过中间一些简单的空间上的连接,可以把 Diffusion 吐出去再去生成。这就是一个很典型的 autoregressive 和 Diffusion Model 的整合,去完成所谓的生成、理解的统一。

Diffusion 打破了自回归的限制,它的特点是可以拟合高维,可以做 Multi-Modelity 的拟合。所以我觉得 Diffusion Model 会在各种各样的地方出现,虽然 Diffusion LLM 还没有跑出 Scaling Law,但我觉得它还是未来可期。

安波:这个方向其实我们也没有做太多工作,但我感觉可能并不是那么容易切换过去。如果真的非常厉害的话,大公司早就纷纷转到那个赛道上去了。而且关于能不能取代 Transformer,我觉得可能性也不大。

AI 科技评论:对于这一点,刘菲老师怎么看?

刘菲:我们在 diffusion model上的探索也不是很多,但我比较认同俊博刚刚的观点。Diffusion model 在图像生成,或者在多模态任务上,确实展现了比较突出的优势。

我主要是做自然语言处理方向的,所以在这个领域,Autoregressive model 仍然是主流。原因在于,无论是文本数据还是一些时间序列数据,本身都具有很强的序列特性,在这种情况下我们通常更倾向于使用 Autoregressive model。当然它也有自己的问题,比如在推理(inference)阶段,很难做到并行处理。针对这一问题,目前有几个可以考虑的方向,一个是刚刚俊博提到的,将 diffusion model 和 Autoregressive model 结合起来。

另一个方向是,即便我们现在谈到 Autoregressive model 时,Transformer 确实非常成功,但近年来也有看到 recurrent neural networks(RNN)及其变种重新受到关注。这些变种在某些方面相较于 Transformer 是有一定优势的。

AI 科技评论:所以说,接下来大家很可能会探索其他架构?

刘菲:对,是这样的。

赵昊:从我的角度来看,我觉得这个问题可以分成两块。一块是 vision 本身要不要和 language 结合的问题。如果只做 vision,比如视频或图像生成的话,我们其实特别关注推理速度,所以未来一两年内,纯 vision 的任务应该会慢慢转向 AR(Auto-Regressive)思路,因为在速度上有明显优势。但圈子里还是会有很多做多模态大模型的人,他们其实并不清楚该怎么和 language 更好地结合。比如多尺度的 token 如何映射到语言空间,目前谁也说不清楚。所以我觉得,未来的发展方向是需要把这两块问题区分开来看待。

Agent 的机遇和挑战

AI 科技评论:最近大家对 Agent 也很关注,四位老师有什么想法吗?

赵昊:我自己做 Agent 的工作不是特别多,但最近找到了一个我认为非常有趣的方向,就是把区块链技术和 agent 通讯结合起来。我们目前正在机器人系统中,探索基于 Agent 信息交互方式,搭建一个可信的加密协同框架,我觉得这个领域非常值得深入。

区块链的特点是大家以分布式的方式共同计算,没有任何一个节点能掌握全局信息,但每个节点都参与了链的运作。区块链里有一个核心的数据结构叫 Merkle-Tree,它的特点是每个叶子节点上的计算结果都可以被有效验证,并最终在根节点完成整体计算,但叶子节点本身并不知道整体发生了什么。对应到 agent 系统中,就是每个 agent 可以参与到协作中,通过通信协议去执行任务,并最终得出结果,但每个 agent 本身并不知道整体的任务全貌。在机器人领域,这种特性非常有用。

安波:那最终你们想解决什么问题?优化的目标是什么?

赵昊:想做的是一个系统,让 agent 可以协同完成任务,而且系统具有很强的抗破坏性。

AI 科技评论:很新颖的思路!刘菲老师您怎么看?

刘菲:我觉得赵老师提到的将 agent 和区块链结合的方向,确实非常新颖,非常值得深入挖掘。我这边在 agent 方向上也有两个代表性的工作。第一个是 HARBOR[1],这是一个 multi-agent system。我们设想未来,每个人都可以拥有一个专属于自己的 personalized LLM agent,能够深度理解你的兴趣爱好,根据个性化需求,帮助你做出更合适的决策。

在这样的设定下,multi-agent system 既可能是合作关系,也可能是竞争关系。我举个例子,比如大家在申请工作时,可能都会用到一些大语言模型或者 agent 帮助修改简历、优化表达。如果只有一个职位,所有申请者之间就构成了竞争。在这种场景下,我们很感兴趣的问题是:在 multi-agent system 中,如何让 agent 同时考虑个人偏好,并帮助用户做出最具竞争力的决策。

另一个工作是 PlanGenLLMs[2],一篇综述性论文。我们对现有的 planning system 做了系统性的梳理和研究。因为现在各个 planning 系统在评测时缺乏统一标准,数据集不同,定义的 agentic capabilities 也各不相同,所以我们希望能提出一个更统一的评估方法,对各种 Agentic system 进行更科学的评估和比较。

AI 科技评论:这种系统会去考察 agent 的哪些方向?

刘菲:这是一个非常好的问题。我举几个例子,比如我们来到新加坡开会,希望让 Agent 帮我做一个出行计划,但它最终提供的方案可能并不是用户真正喜欢的,所以这就是其中一个问题。还有一种情况是,比如我的预算有限,但可以接受稍微超出的方案,或者有一些截止日期,必须严格遵守的。这种情况下,Agent 系统需要在多目标优化环境中,深刻理解哪些目标必须严格执行,哪些目标可以有一定的灵活性。这是我们评判 Agent 系统的一个重要方向。

另一个方向是我个人比较感兴趣的。因为未来很多 Agentic system 会分布到家居环境中,比如冰箱、手机等这类 edge devices,它们无法直接调用大模型,因为资源受限。所以未来的一个问题就是,如何在小模型上也能实现较强的 agentic capabilities。

AI 科技评论:那可以理解为像冰箱、手机这种设备上,会有自己的端侧小模型?

刘菲:是的,可能在端侧有一个小模型,处理一些本地任务,同时后台由大模型提供支持。一些请求可以直接在小模型上完成,另一些则发送到大模型上处理。

AI 科技评论:安波老师,您认为“小模型+Agent”是一个趋势吗?

安波:我认为是的。现在大模型的决策能力都还很弱,更不要说小模型了。总体来看,大语言模型在处理决策问题时,基本上是通过 imitation learning,即模仿已有数据。而这也解释了为什么 inference 过程如此关键。我认为未来无论是大模型还是小模型,要完成复杂决策任务,都需要引入 RL(强化学习),因为 RL 能通过与环境的交互,不断提升模型的能力。

其实刚才两位老师提到的方向,我也有研究。在做大语言模型之前,我一直在做 multi-agent system 的研究。在这个领域里,communication(通讯)是一种方式,但更关键的是如何实现 dynamic 协作优化,尤其是在机器人领域,每个 agent 如何在动态环境中高效协同,这是最困难的部分。而且刘菲老师提到的第一个方向,我认为确实是刚需,只不过这里面还有很多算法上的挑战,比如如何快速找到最优解。

AI 科技评论:安波老师,您从什么时候开始做 multi-agent system 的?

安波:我从上学期间就开始做了。稍微科普一下:这个领域起源于上世纪 80 年代,早期主要是军方为了建传感器网络。因为当时单个传感器能力弱,比如确定一辆车的位置,需要三个传感器协同定位。这就是最早的 sensor network。

后来,机器人比赛中也需要分布式协作而非集中式控制,这种场景中,Agent 完全是合作的。之后,随着互联网兴起,计算博弈论出现了;再后来,传统的 distributed planning 难以扩展,于是 distributed RL 被提出来了。到 deep learning 阶段,这一切又被进一步 deep 化。直到今天,随着大语言模型的出现,AI Agent 的概念再次被提出,但实际上,早期的 multi-agent system 已经包含了很多基础思想。

AI 科技评论:那您怎么看 RL 和 Agent 的结合呢?

安波:我认为这是未来真正落地决策型大模型的关键环节。现阶段我们还能通过充分挖掘大语言模型现有的能力,加一些工具链去完成任务。但如果要让它真正运行在现实世界中,就必须要和环境有真实交互。我们现在也在做一些相关探索,比如在 token level 上做 exploration(探索),这是一个巨大的机会领域。所以,把 RL 和大语言模型结合起来,去解决复杂决策问题,是非常重要的方向。

AI 科技评论:俊博老师最近有关注到一些相关的公司吗?

赵俊博:这种公司现在很多了,我觉得今年后面还会越来越多。比如前段时间 Manus,虽然功能上还有很多局限,但在交互体验上确实让人眼前一亮。

赵昊:写文献综述很好用。

赵俊博:这个领域我觉得肯定是有泡沫的。我也很同意安波老师刚才的看法,大模型本身的决策能力还比较弱。但不管怎么说,大家都在努力往这个方向推进。我相信今年 Agent 领域的版图还会进一步扩大。

AI 科技评论:安波老师,您最近有用过市面上的 Agent 产品吗?

安波:我用得不多,但有关注到一些,像 Manus 的评价我也看了很多。总体来说,它还是有不少值得学习的地方。

AI 科技评论:您觉得通用 Agent 是未来可能实现的目标吗?

安波:我认为肯定是 AI 发展的方向。人类对 AI 的需求不只是聊天式交互,而是希望 AI 能帮我们完成特别复杂的任务,这就是 Agent 的本质。但这条路非常难。即便今天 AI 在某些数学领域已有突破,我觉得要实现真正的通用 Agent,十年时间也很难完成。

AI 科技评论:刘菲老师,您目前的研究有没有一些能实用化的 Agent 项目呢?

刘菲:虽然我们正在做 Multi-agent system 和一些 planning 相关的算法开发,但也注意到,尽管 agent 很火,真正能落地的项目其实并不多。

这里面主要有两个潜在问题。第一个是鲁棒性问题。很多 agentic system 最后是以任务成功率作为评估标准,但目前大部分系统的成功率远达不到 90%-95%,这会在落地应用时带来很多困难。

第二个问题是安全性挑战。比如,模型生成的内容中可能包含幻觉信息,尤其是在代码生成的场景下问题更突出。正常情况下,如果 agent 正确地生成代码,是非常好的;但如果因为幻觉问题,生成了不存在的 library name,或者恶意用户提前注册了这些名字并植入了恶意代码,那后果就很严重了。当然,这只是当前我们已知的一些问题,未来随着应用的深入,肯定还会遇到更多新的挑战。所以,安全性问题必须高度重视。

赵昊:我听完刘菲老师讲的,觉得以后如果每个人都有自己的 personal agent,大家为了抢票、抢资源,不就变成了 agent 之间的战争了吗?如果以后要买一张机票,得付费买一个更厉害的 agent,感觉还挺可怕的。

AI 科技评论:竞价排名应用到个人生活里了。

赵昊:对,到那时候,要么自己处理所有复杂事务,要么就得付钱用好一点的 agent。这种趋势我觉得很快就会出现。

AI 科技评论:如果从大模型智力提升的角度来看,大家能预测一下,未来有哪些技术可能帮助模型更聪明?下一个阶段的研究趋势会是什么?

赵昊:我目前的研究方向是生成更可控的内容,进而训练出更聪明的机器人。这也是我认为提升 AI 智力的重要方式。但目前机器人的问题在于,它们在物理世界的灵敏性还远远不够。机器人领域不仅技术复杂,还涉及产业链,比如供应链,所以发展速度不像纯软件那样快。不过,随着资金和关注度的增加,机器人技术肯定会越来越快进步。

AI 科技评论:那你觉得,什么样的机器人才算是真正聪明的?

赵昊:其实现在机器人借助大语言模型的能力,已经挺聪明了。最大的问题不是智力,而是灵敏性。也就是说,当前机器人的“小脑”还不够发达,不够敏捷。

AI 科技评论:刘菲老师,您觉得该如何进一步提升大模型的智力?

刘菲:我个人认为,基础模型(pretraining model)仍然是最核心的。最初一两年里大家都在拼基础模型,最近半年虽然评测报告少了,但基础模型的重要性并没有下降。如果有一个非常稳健的基础模型,在此基础上进行长上下文扩展、强化学习(RL)微调、多模态能力扩展等,都会变得更加顺畅。而基础模型质量不好,后续的问题会层出不穷,不仅是幻觉问题。

当然,好的基础模型并不一定非得超级大。其实大概 70B 参数的模型,就可以非常好用了。虽然更大的模型可能有额外优势,但“越大越好”并不总是成立的。所以,我认为未来一个非常重要的方向,就是在适中的模型规模上,把预训练做到极致。

第二个方向,是未来半年到一年内,关于模型安全性的研究,无论是评测体系还是技术本身,都会成为重点。

最后,我也很期待大模型在交叉学科领域,比如 AI for Science、AI for Education、AI for Finance,能够带来真正突破性的进展。

AI 科技评论:安波老师,您觉得呢?

安波:我这边还是更关注决策相关的问题,无论是在 inference 阶段,还是在 multi-agent 阶段。我认为这确实是一件非常难的事情。完成一个具体任务是一方面,但如果希望进一步提升系统的鲁棒性,特别是在应用到一些此前数据未覆盖到的场景时,基本上是非常困难的。整体来说,我们还有很长的路要走。

刘菲:我非常同意安老师的观点。未来与环境的真实交互,确实是 agentic system 中非常重要的一环。

AI 科技评论:俊博老师,您的看法呢?

赵俊博:我的观点一半乐观一半悲观。乐观的地方是,LLM 的 post-training 这一条路径已经逐渐被摸索清楚了,而且今年之内依然有不少可以深挖的空间。比如说,数据目前还没有被完全穷尽,还有很多新型的数据尚未真正铺开应用。同时,算法和基础设施(Infra)方面也仍有比较大的提升空间。当然,长文本问题涉及到的一些结构体系改进,也是接下来的挑战之一。不过整体来看,一切变化发展都很快,所以最终要到今年年底,我们才能真正看到会发生什么样的新变化。

AI 科技评论:好的,那我们就静静期待,今年年底还会有哪些新的突破出现。也非常感谢四位老师今天和我们分享了这么多宝贵的内容,谢谢大家!

参考文档:

1.https://arxiv.org/pdf/2502.12149

2.https://arxiv.org/pdf/2502.11221

来源:雷峰网leiphone

相关推荐