对话面壁智能刘知远:Densing Law是大模型能力的另一个度量衡

360影视 2024-12-26 17:21 2

摘要:今年下半年,关于大模型领域的公共信仰Scaling Law是否“撞墙”的讨论络绎不绝。但不论支持还是反对,都需要意识到的一点是,Scaling Law并非衡量大模型能力的唯一视角。

实现大模型的能力密度约每3.3个月翻一倍。

作者|王艺

编辑|赵健

今年下半年,关于大模型领域的公共信仰Scaling Law是否“撞墙”的讨论络绎不绝。但不论支持还是反对,都需要意识到的一点是,Scaling Law并非衡量大模型能力的唯一视角。

近期,面壁智能的刘知远教授团队就在2024中国人工智能大会(CCAI 2024)上提出了大模型的“密度定律(Densing Law)”——模型能力随时间呈指数级增长,2023年以来能力密度约每3.3个月翻一倍。也就是说,每过100天,我们就可以用一半的参数量实现当前最优模型相当的性能。

会议期间,面壁智能联合创始人、首席科学家、清华大学计算机系副教授刘知远作了题为《大模型的知识密度定律,推论与预测》的主题分享。「甲子光年」在会后第一时间采访到了刘知远教授。

在采访中,刘知远透露了几个关键信息:

根据Densing Law,面壁智能大概会在明年或后年,在8B或4B的模型上实现GPT-4和GPT-4o同样的能力;未来最前沿的大模型技术一定首先发生在端侧;随着芯片电路密度(遵循摩尔定律)和模型能力密度(遵循密度定律)持续增强,未来的大模型会像现在的CPU一样无处不在。

以下是刘知远教授的报告内容,「甲子光年」整理后发布。

首先,大模型技术本身代表着人工智能一个非常重要的成熟阶段。与历史上的符号智能和专用智能相比,大模型通过通用的Transformer架构和序列预测的学习方法,实现了从未标注的数据中学习知识的能力。这种技术方案标志着迈向更加通用智能的关键一步。因此,在这种技术框架下,结合大数据和强大算力,能够在一个模型里面持续积累知识,从而促进形成所谓的“智能涌现”。

过去五年,我们见证了一个非常重要的大模型的发展趋势。随着模型的参数和训练规模不断增大,模型的智能能力也越来越强。这个现象就是Scaling Law

过去五年中,模型参数实现了从几千万到几千亿的巨大增长,模型的发展也从BERT、GPT-1到如今的GPT-3.5、ChatGPT、GPT-4,以及未来可能出现的GPT-5等一系列升级。

然而,到了2024年,一个新的问题出现——Scaling Law的可持续发展路径。这两天Ilya和许多学者、从业者都提到过,现在可用于训练模型的数据日益枯竭,公开可获取的数据几乎已被用尽。而且,随着模型尺寸的不断增大,计算资源的可持续发展成为一个新的问题。

在过去的五年里,模型的参数规模增长了几千倍。假设将现有的几千亿参数模型的规模增长几百倍,情况会变得非常严峻。如果要训练一个100万亿参数的模型,就需要400万张H100显卡,这相当于英伟达2023年全年的生产总量的几倍。仅仅是训练一个模型所需的计算资源就如此庞大,那是否只能依赖几家大公司来承担这些高昂的成本?即便这些模型训练完成,全球有多少人能使用得起这些资源呢?这正是Scaling Law的可持续性问题。

为了应对这一挑战,需要思考未来AI发展的路径。面壁认为,过去几十年的信息革命提供了一个重要的启示:1945年,全球第一台电子计算机的体积为2.7吨,需要一间大房间才能放得下,而如今,一部智能手机的算力已经远超当时的计算机。计算机80年的发展历程见证了信息革命的到来。

信息革命的一个重要驱动力就是摩尔定律。摩尔定律指出,通过不断改进芯片制造工艺、提高芯片的制程,可以有效提升芯片上电路的密度。摩尔定律最早由戈登·摩尔在1956年提出,内容是每两年芯片上单位面积的电路密度会翻一番。与Scaling Law不同,摩尔定律的核心是追求芯片电路的密度,而不仅仅是规模。正是这样的一个不同的视角,引领了整个芯片行业的发展,进而实现了计算设备的小型化、普及化,最终推动了全球信息革命的到来。

这是一个非常重要的启示。幸运的是,大模型领域在过去几年也发生了一个类似的规律——大模型的能力密度也在不断增强。随着大模型的构建,算力和算法的协同发展,逐渐能够用更少的参数来实现相同的智能水平。

一个非常重要的例子发生在2020年,OpenAI发布了一个具有1750亿参数规模的模型,而到了2024年2月,一个仅有24亿参数的模型就能实现相似的能力。这显然表明,大模型的能力密度在持续增强,也就是在同样的参数规模下,模型的智能表现得到了显著提升。

这件事情确实非常困难,因为缺乏像信息传输领域的信息论信息熵那样的基本单位来衡量一个模型的能力密度。为了克服这个问题,我们需要做一些假设。

面壁的假设是:如果采用相同的制造工艺,通过充分训练得到的不同尺寸的模型,它们的能力密度是相同的。基于这个假设,可以尝试确定一个基准模型(reference model),并将其标准能力密度设定为1。

可以这个框架下用基准模型作为参考,来衡量其他目标模型的能力密度。具体来说,假设以目标模型GPT-3为例,GPT-3的参数规模为1750亿参数。通过在一系列标准Benchmark上对模型进行测试,评估其表现,从而确定其智能水平或能力。通过这些测试,可以得出GPT-3在这些测试中的表现,并将其能力密度与基准模型进行比较。

通过这种方法,不仅能了解GPT-3的实际能力,也能得到一个衡量其能力密度的相对值,从而进一步比较不同模型的表现和智能水平。

我们可以将MiniCPM作为基准模型,并用它来衡量历史上所有模型的能力密度,分析不同模型的能力密度,随着时间的推移,它们的变化规律。这样,我们实际上得出了一个非常重要的结论,大模型能力密度的规律——Densing Law(密度定律)

Densing Law表达的核心思想是,在过去几年中,模型的能力密度呈现出指数级增长的趋势。也就是说,随着时间的推移,模型的能力密度不断增强,并且这种增长不是线性的,而是呈现指数级加速。这一规律揭示了大模型技术的飞速进展,以及在算力和算法的协同作用下,模型能力的持续提升。

2023年以来,随着全球各大机构加入训练模型的队伍中,市场上其实有大量的模型,它们的能力密度大概是按照平均每100天翻倍的速度在快速增长。

接下来是Densing Law的一些重要结论:

第一个结论是,如果我们锚定某种特定层次的能力,那么要实现相同能力的模型,其参数规模大约以每100天下降一半的速度进行发展。

也就是说,如果当前为了实现某个能力,模型的参数规模是n,那么在100天后,能够实现相同能力的模型只需要n/2的参数规模。这意味着,随着时间推移,模型的能力在同样的资源消耗下得以提升,模型的参数规模大幅度缩减,但仍能维持相同的性能。

第二个结论是,模型的尺寸与推理速度之间存在严格的正相关关系

也就是说,随着模型尺寸的增大,其推理速度通常会变得更慢。基于这一规律,可以得出结论,对于实现相同能力的模型,其推理开销会随着时间的推移呈现出指数级下降的趋势,而且这一下降速度比模型能力密度的提升速度要快。

为什么呢?是因为密度定律表明,达到相同能力的模型参数会呈指数递减,每100天减少一半。这意味着模型的推理速度会提升一倍。同时也可以看到,芯片的算力水平持续增强。此外,模型的推理算法也在不断改进。最终,这些因素共同作用,导致模型的推理速度实际上是在快速提升,提升的速度大约是每3.3个月加倍,甚至可能更快。

第三个非常重要的趋势体现在模型的训练开销上,训练开销随着时间迅速下降

有这样一个经验公式,大模型的训练开销大致与模型的参数规模N和训练数据量D成正相关。同时现在大家普遍认为,全球的数据已基本被用于预训练,几乎已经耗尽,这意味着D基本保持不变。这种情况下可以推断,大模型的训练开销大致与模型的参数规模正相关。

如果以一年为周期,假设当前需要用一个750B参数的模型(即7500亿参数)来训练出相应的模型能力,那么根据Densing Law,随着时间的推移,这个能力的密度将大约倍增三次以上。也就是说,一年后只需要不到60B(即不到600亿参数)的模型,就能够实现相同的能力,同时所需的训练算力将下降到原来的1/12。

第四个结论是,如果我们将时间周期考察得更长一些,会发现大模型的能力密度呈现出加速增强的趋势。

以2022年底ChatGPT发布为时间节点,在ChatGPT发布之前,模型的能力密度是以每4.8个月的速度倍增;而在ChatGPT发布之后,这一倍增速度加快到每3.2个月一次。这实际上反映了随着全球更多人力、算力和资源的投入到大模型领域,相关技术的演进速度得到了加速。

第五个结论是,随着模型的能力密度持续增强,并且随着芯片电路密度的不断提升,这将引发一个非常重要的化学反应:随着时间的推移和模型能力密度的持续增强,我们可以用更少的参数来实现曾经需要更大参数规模才能达到的模型能力。也就是从左上到右下的这条曲线。

而另一条曲线是从左下到右上的蓝色虚线,代表的是随着芯片能力的持续增强,我们能够在端侧部署并运行更大的模型。可以看到,这两条曲线是相向而行的。这个非常重要的结论是,只要世界上有任何机构或组织能够训练出一个模型,随着这两条曲线的发展,未来某个时刻,人们一定能够在终端上部署并运行这个模型。这揭示了端侧智能的巨大潜力。

第六个非常重要的结论是,很多组织或研究机构都在尝试利用模型压缩技术,试图将已有的超大模型压缩成更小的模型。

但大量实验表明,如果仅仅依靠剪枝和蒸馏等技术,最终得到的小模型,其能力密度甚至可能比原始的大模型更低。因此,现有的模型压缩技术实际上会导致模型的能力密度下降,和能力显著劣化。

如果想要得到一个能力密度更强的模型,那么需要在各个方面的技术上去推进,把模型从头训出来。

第七个结论是,模型能力密度倍增的周期实际上决定了该模型的有效使用期。

换句话说,一旦模型训练完成,它在未来几个月内可能会出现一个能力更强、参数规模更小、推理成本更低的新模型。在这种情况下,我们显然会选择成本更低、能力更强的模型。因此,即便是用最强的知识密度训练出来的模型,也必然会有一个使用周期或有效期。在这个有效期内,需要充分发挥模型的应用价值。

针对以上结论,面壁有一个关键的判断,那就是模型能力密度的持续增强并非凭空而来,而是由模型的架构、学习方法以及数据治理水平等多方面因素共同作用的结果。因此,面向未来,每个团队都应围绕如何极致地提升模型能力密度展开探索,进而构建大模型的科学化建设方案。只有这样,才能实现大模型的高质量、高能力密度发展。

在这一过程中,面壁认为,必须实现人工智能的科学化,并找到其理论基础。

当然,现在谈论的方向还处于一个非常初步的探索阶段。与信息论以及其他许多学科相比,它的科学理论仍然非常薄弱。

然而,面壁已经发现,有三个非常重要的要素极大地影响模型能力密度:第一个是模型的框架;第二个是模型的知识来源,也就是数据治理的水平;第三个是从数据到知识的成长规律。这三个因素实际上是决定模型能力密度的最关键要素。因此,显然需要围绕这三者,建立一套科学化的理论体系。

Scaling Law告诉我们,如果采用相同的模型制造工艺,我们可以得到一条又一条的曲线,随着模型规模的增长,其能力也会相应提升。但显然,面向未来,人们的目标不是沿着同一制造工艺平缓地发展下去。我们要做的是不断改进模型的制造工艺,提高模型的能力密度,从而追求更加陡峭的模型成长曲线。通过这种方式,才可以实现模型的高质量发展,增强模型在市场上的竞争力。正是基于这样的判断,在过去的一年里,面壁团队一直在极致追求更高能力密度的模型。

今年9月,面壁在一个40亿参数的端侧模型上实现了ChatGPT水平的能力,这个是在文本的基座模型上;今年8月,面壁在80亿参数规模的端侧模型上实现了GPT-4V水平的能力。

根据模型的能力密度的定律,其实我们大致可以预测,在未来的一到两年的时间里面,我们可以在终端上实现GPT-4的文本模型基座,实现GPT-4o的多模态的基座。在那一刻实现之后,我们显然可以在终端上迎来一个非常广阔的大模型应用前景。

我们正在迎来的是一场智能革命,智能革命会怎么到来?会以什么样的方式到来?正如要向摩尔定律去借鉴一样,那我们也可以从信息革命中获得启示。

在信息革命到来的初期,IBM的董事长沃森曾经发表言论说,这个世界上不需要超过五台主机就可以满足全球的计算的需求。但是到了2024年,全球有超过13亿台的PC,有超过70亿部手机,有超过180亿个各种各样接入到互联网的IoT的设备,有超过2000亿个正在运行的CPU。

面壁认为大型机显然不是信息革命的重要的标志,而是80年代、 90年代真正让每个人用得起、用得上的PC,和现在人手一台的手机,这才是真正的信息革命的标志。

面向未来,全球的数据是分布式的,这就意味着我们的人工智能无处不在,一定会是需要无数个大模型,才能够真正地实现让人工智能赋能每个人。

面壁认为人工智能时代的核心引擎其实有三个:一个是电力,一个是算力,一个是智力。其实相关的学科都在不断地追求密度持续增强的这么一个发展方向,譬如说电池的能量密度按照每10年倍增的周期来发展;芯片的电路密度是按照每18个月倍增的周期来发展;而模型的能力密度,它的倍增的周期是100天的时间。

也许明年后年这个倍增的周期会发生一些波动,但密度定律本身是普遍存在的,它体现了技术发展的价值,就是要不断地去利用各种更强的外力,去实现电力、算力和智力的熵减,能够带来更多的秩序,能够让它以更低的成本、更好的效率、更强的能力来服务每一个人。

以下是「甲子光年」等媒体对刘知远的采访内容:

问:你在报告中表示随着模型能力密度的持续增强和芯片电路密度的不断提升,端侧AI生态即将迎来一个潜在的爆发点。在你看来,这个爆发点大概会在什么时候出现?这个爆发点出现的时候,端侧AI的模型参数和成本大概会是什么样的?

刘知远:Densing Law推断,每100天模型的参数规模就能减少一半,实现和现有模型相同的能力。根据这个推论,预计大致在明年和后年,我们将能够使用大约80亿或40亿参数的模型来实现GPT-4和GPT-4o的能力。

现在大家普遍认为,每个人都能用得上的、而且效果也还不错的模型,也就是GPT-4和GPT-4o了。我们觉得到了明年和后年,它们将能够在终端设备上运行,且成本会大幅降低。这里的成本,取决于你说的是训练成本,还是使用成本(推理成本)。因为使用成本本身就包括了我们日常购买的设备费用,比如水电费等。

所以面壁认为,未来的目标是让这个模型尽可能小巧,能够在一个芯片上运行,从而使得用户无需额外支付。也就是说,虽然目前模型的训练可能需要几百万的投入,但一旦这个模型被装载到手机等终端设备上,用户已经为设备支付了费用,后续使用的成本可以忽略不计。

问:你们的论文《Densing Law of LLMs》中有提到,谷歌Gemma-2-9B模型,其训练成本约为185万人民币,但是仅两个月后,它的性能就被参数量减半的MiniCPM-3-4B超越。在这种趋势下,大模型的有效使用期缩短了。你如何看待接下来AI大模型的迭代速度?

刘知远:第一,高支持力、高能力密度对大模型会变得更重要,各家公司应该都去追求更高的能力密度,去训练自己的模型,这件事情意味着更低的推理成本、更快的推理速度。特别是在终端上,因为终端能耗高,且芯片的算力和内存其实都是极度受限的,它本身不会给模型太多的空间。模型越小,其实竞争力越强,所以其实高能力密度的模型在终端上的价值会更大一些。这也是我们往往要用最高制程的芯片来支持手机的原因,手机对芯片的空间和能耗其实是有极大限制的,它其实是带着约束,推动我们把芯片的能力发挥到极致。

到了云上逻辑就不太一样,因为云侧有一些团队可以发挥钞能力来解决问题,也许我训出的模型比别人要大两倍才能达到相同的效果,但是我有钱,那我就可以租10倍的算力去打击竞争对手,这个可以通过价格战来搞定。先把所有的竞争对手饿死,把市场抢占下来。

这个跟当年互联网的版权之争、外卖之争、共享单车之争是非常像的,最后都会变成“钞能力”的竞争,在云上总是不可避免的发展成这种态势。所以我认为在终端上的竞争可以更加技术驱动。

问:Densing Law的发现,对于端侧芯片有没有提出更高的要求?比如之前MiniCPM-2.6V发布的时候是在M4芯片的iPad上跑的,是不是只有M4这种级别的芯片才能运行未来的端侧大模型?

刘知远:这是很好的问题,比如我们现在已经能够把GPT-4V的模型能力用80亿参数实现,但是能支持在终端上去运行80亿参数的芯片,目前M4是比较强的。所以在一些廉价的场景上去使用端侧模型,还是需要一些更小的参数才行,这是第一个方面;

第二个方面是我们的一个基本研判,就像刚才我们提到的最先进制程的芯片往往是用来支撑端侧的,那么面壁认为未来大模型的最前沿技术一定首先发生在端侧模型上。

譬如我们会在明年推出全新的模型架构,来支持我们用更少的内存、更少的推理成本来实现端侧模型更强的能力,这样模型在终端上的突破优势会更明显,但是对应的这些前沿技术和模型架构,对底层的芯片其实是更高的要求。但是模型的迭代速度会更快,因为它是纯软件的,模型的Densing Law是每100天迭代一次,但是对于芯片来讲是每18个月迭代一次。其实18个月接近两个月的时间,这中间还是存在一定的时间差的。所以我们大致会认为模型会跑得更快一点。

在这种情况下,一旦某些非常重要的一些feature,譬如模型架构等,一旦我们能够证明模型在某种架构下能表现更好,那么在芯片下一轮的迭代中,设计方案可能也会随之做出调整。

现在来看,对于模型稀疏性的支持度上,英伟达的专属芯片是支持的最好的,包括高通,包括其他的端侧芯片,其实对于稀疏计算都没有那么强的支持。所以我们会认为这是接下来一两年芯片厂商会持续迭代和改进的方向。

问:Densing Law意味着我们将来或许不再需要那么大的算力去训练模型了?

刘知远:我不太认可这个结论。我会认为是,现在的Scaling Law其实是非常的浪费算力的,导致现在的模型无论是训练的成本还是推理的成本都是极高的。

就像我报告里分享的,信息革命的初期,IBM预测全世界只需要不超过5台大型机,但是到了2024年的今天,全球大概有13亿台PC、70亿部手机、几百亿接入到 互联网的各种各样的设备,有2000亿的CPU在运行。

那你就可以设想,现在甚至还有人会说这个世界上不需要超过5个或者几个大模型,我觉得这个跟当年IBM董事长的论调一样, 都是非常短视的,我认为未来的大模型其实是会像CPU一样,它应该是要无处不在的

所以在这种情况下,虽然Densing Law让我们训练单个模型的算力变小了,但是如果乘以它的数量的话,我觉得对算力的需求仍然会是一个逐步增大的过程。单个芯片的算力跟最早的大型机相比,已经变大了很多,但是我认为它的成本是在降低的,只是它的数量变得更多了。

所以我认为我们首先应该降低成本,然后让它实现类似于PC机当时的Tipping Point(引爆点,英国作家马尔科姆·格拉德威尔的书中提到的一个观念,表达了微小行为如何能对世界产生巨大影响)。如果我们真的能让世界上的每个人拥有一个属于自己的大模型,去支撑自己生活、学习和工作,这么好的事为什么不去做呢?但是这件事实现的前提就是模型的成本和芯片的成本,都要通过技术手段不断往下压。

来源:甲子光年一点号

相关推荐