大模型是新的数据库!蚂蚁开源负责人王旭:应用开发新范式

360影视 2024-12-18 23:25 3

摘要:MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。

大模型的开源与闭源之争至今仍是热议话题,毕竟讨论核心触及技术发展路径、产业生态构建,以及对未来创新动力的影响。

蚂蚁集团开源技术委员会副主席王旭立下断言:

具备数据生成式能力的模型正在取代数据库在传统应用的核心的位置。

王旭目前负责蚂蚁开源技术增长和容器基础设施。

在MEET大会现场,他以开源为题,以数据为证,给我们揭示了不同视角下大模型技术架构、基础设施以及创新应用到底该往何处去。

他进一步表示,在AI时代,新一代LAMP正在形成,并且模型相比于数据库更加具有可迁移性,相应的数据传输链路、数据安全性需求也在崛起

MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。

在过去一年半,尤其是近一年里,AI技术渗透进各种各样的应用。虽然除了直接和模型交互来生成图文之外,并没有太多的“新业务”出现,然而,单单是直接的数量提升和加速就已经可以引发非常显著的变革了。AI Agent框架项目数量在Llama2开源模型发布之后爆发式增长,但没有哪个项目如今已经“一览众山小”。我们程序员这一群体从害怕AI,理解AI到拥抱AI;而我们日常的生产力应用都在逐渐变得智能化,从“录入工具”转向“有灵魂的协作伙伴”GenAI时代,基础设施变了,但是也没有完全变。具备数据生成式能力的模型正在取代数据库在传统应用的核心的位置。在AI时代,新一代LAMP正在形成,并且模型相比于数据库更加具有可迁移性,相应的数据传输链路、数据安全性需求也在崛起。

谢谢主持人,感谢大家参会。首先简单自我介绍一下,我叫王旭,负责蚂蚁集团的开源工作,同时负责了一个容器基础设施团队。五年半以前,我一直在做容器领域的开源创业,现在在蚂蚁,也是基础设施域的架构师。

分享这些经历是为了向大家说明,与刚才发言的几位嘉宾不同,首先我的背景是做基础设施和系统的,不是做智能的,另外一方面我是做工程的,不是做研究的。尽管我也拥有博士学位,但研究领域是电路专业。今天告诉大家这些背景,是希望可以给大家带来一个不同角度的思考。

蚂蚁集团的开源技术增长团队是隶属于架构部的,其中一个工作目标就是利用对开源社区的洞察来为蚂蚁的架构和技术的演进提供指引

对于规模较大的公司而言通常会有内部延续性技术演进、也需要对外部技术新方向做探索。在这个过程中,我们会从社区中获取更中立、多方参与的数据信息,通过这些信息形成对整个技术平台、架构和技术演进的全面看法。

这次我们带来了一些社区数据,这些数据未必是全面的,也未必完全公正客观,但可以反应一个没有某一公司立场的外部的视角,我把这些数据带到这里来跟大家做一个简单的分享,希望可以提供一些有趣的洞察。

在过去一年半,尤其是近一年里,AI技术渗透进各种各样的应用。

虽然除了直接和模型交互来生成图文之外,并没有太多的“新业务”出现,然而,单单是直接的数量提升和加速就已经可以引发非常显著的变革了——

蚂蚁这样一家与金融相关的科技公司为例,有些业务涉及到财报研读,传统的分析非常耗费有经验的人力。有了大模型之后,可以及时并全量地高效分析财报。虽然目前的大模型的工作还没有人做得精致且有灵魂,但是单单“量大”、提高效率就是过去无法企及的了。

构建这类应用需要一些基础设施,蚂蚁也在前一段开源了支撑这一工作的多智能体框架agentUniverse

当然,这样的智能体框架远不止一个。

我们调取了近两年的整体开源社区的部分数据,进行聚类之后提取出来一些用于构建AI应用的框架、智能体框架以及其他构建AI快速应用开发的工具。

在ChatGPT之后,尤其是Llama2开源大模型发布之后,各种开源AI应用框架、智能体框架层出不穷,数量增长非常迅猛,配合快速增加的应用场景,这些框架广泛应用在各种专业领域。

上图的曲线显示了在过去两年的时间里项目的热门程度或者活跃程度。

其数据依据并不是简单地基于GitHub Star,在这个程序员的社交网络中也有很多其他方式的互动方式可以用作评估因素,比如项目的参与人数,参与者来自的公司与组织分布,不同组织的参与者之间的互动等等都是我们考察的因素。

目前开源社区有很多AI Agent框架项目,他们的数量大概在Llama2开源模型发布之后爆发式增长,没有哪个项目如今已经“一览众山小”。

我们可以从上图看出各个项目有明显变化的趋势,有的高开低走,有的不断攀升。虽然评价一个项目有很多因素,这个趋势并不完全代表项目运营状况,但是可以用于参考社区发展情况。

以上大部分项目都使用Python来开发,并非传统大厂Java应用。很多用户用Python,甚至低代码的方式填一下表单就可以“30分钟开发你自己的AI应用”,低代码交互式生成方式的热度遥遥领先。AI框架正在不断贴近应用场景,给我们带来很多变化。

如果刚才说的是以AI能力为中心设计的所谓“原生AI”应用,那么传统应用领域的应用和开发工具也在越来越多受到AI的影响。

以程序员自己为例,我们程序员是一个挺有意思的群体,一边每天在担心自己可能被AI取代,一边又在开发AI取代自己。当AI开始有能力提供生产力的时候,他们又立刻开始用AI改造自己的工具。

所谓“害怕AI,理解AI,拥抱AI。”

上图是隐藏VSCode后过去两年内的IDE开发工具的社区活跃度(如果VSCode在的话是在屏幕上面的位置)。

蓝色的曲线是最近蹿红最快的开发工具项目cursor,现在这个领域里面带上AI相关标签协作式开发已经非常火爆了。

这反映一个趋势,各种我们日常的生产力应用都在逐渐变得智能化——从“录入工具”转向“有灵魂的协作伙伴”,一个人也可以和AI来协作。

对于一些有数据安全顾虑的公司,肯定不能随便使用外部大模型,比如蚂蚁内部,我们也有自己的IDE框架CodeFuse来通过AI方式辅助大家编程。

那么在这样的背景下,基础设施到底是否发生了变化呢?

变了,但是也没有完全变

在GenAI时代背景下,算力规模迅速增大,比如说马斯克的十万卡的集群,这时的基础设施团队为AI不论训练还是推理准备的资源,大家首先想到的是以GPU和高性能网络为核心的智算硬件

那么从硬件的角度来说确实变化巨大,然而我们看到最底层软件基础设施没有太大变化,只是在技术方向上做了不同的取舍。

即使是训练,也是在同一套分布式系统的框架之内,利用分层次的各种手段,对性能、稳定、成本和安全做不同的取舍。

“不同的取舍”所带来的基础设施的最大变化,是来自于应用范式本身的变化而非硬件的不同

支持应用需求的方面,很多新的元素在为AI打造基础设施过程中诞生了。架构上可能看起来变化不大,但是生成式AI诞生的需求变化产生了更多、更深远的影响。

当传统的应用“非原生AI应用”都在向AI方向演进,开始基于模型构建,这样演进带来什么变化?

我们可以用观察到的数据得到一些简单结论——具备数据生成式能力的模型正在取代数据库在传统应用的核心的位置

刚刚徐立老师说下断言经常被打脸,但是作为一个架构师总是要敢于下断言,我先下断言,以后再说打脸的事——

在AI时代,新一代LAMP正在形成,并且模型相比于数据库更加具有可迁移性,相应的数据传输链路、数据安全性需求也在崛起

所谓LAMP是在2000年左右形成的Web2.0应用开发基本的范式,传统数据库是整个架构的核心。对大型公司来说,数据库承担非常大的海量数据存储,基础设施是围绕数据库来打造的。

我们观察到AI时代的不同——现在基础设施开始围绕模型展开了。从模型的生产到服务,如何保证模型尺寸不大的同时又能进行大规模传输,对基础设施的每一个环节都在产生深远的影响。

在新范式的影响下,做基础设施的人或者相关参与者应该把精力投到哪里去,应该开发什么,是去写新的框架还是改进基础设施,抑或是准备数据等等,这是我们希望大家可以从里面获得的有价值的信息。

这个时代对我们做基础设施或者软件行业的人来说,有没有变化的地方,也有变化很大的地方。这些变化来自于整个时代应用变化的需求,可以帮助我们调整软件架构和向前演进我们的基础设施。

以上就是我今天的分享,我们希望从开源角度给大家带来一些启示,谢谢大家!

— 完 —

来源:量子位一点号

相关推荐