摘要:Ilya 表示,深度学习之所以成功,要归功于「规模假设」,即利用非常大的数据集来训练一个足够大的神经网络,只需要大力出奇迹,成功就“几乎可以预见”,这一暴力法则也被称为“Scaling law”。
在12月中旬的NeurIPS 2024会上,OpenAI 联合创始人 Ilya Sutskever抛出了一个非常犀利的观点:预训练时代即将结束。
Ilya 表示,深度学习之所以成功,要归功于「规模假设」,即利用非常大的数据集来训练一个足够大的神经网络,只需要大力出奇迹,成功就“几乎可以预见”,这一暴力法则也被称为“Scaling law”。
而今,Scaling law正遭遇危机。Ilya 认为,当前提升计算能力的速度已经超过了可用于AI模型训练的总量,数据增长已接近瓶颈,“当前仍然可以使用现有数据进行训练,但趋势终将放缓,预训练时代也会逐步结束”。
这一说法并非孤言,根据海外媒体报道,越来越多的从业者正在重新评估“Scaling law”的有效性和局限性。
例如,投资了OpenAI的a16z 联合创始人 Marc Andreessen在播客中表示,目前 AI 模型似乎正在趋于同一能力上限。AI公司Anyscale 联合创始人Robert Nishihara则更为直接:“如果你只是投入更多计算,投入更多数据,那么模型就会变得更大——收益会递减。”
一个很明显的例证是,OpenAI 的下一代模型Orion在性能的提升幅度上,并不如从GPT-3 到 GPT-4。
Ilya的“暴论”,与诸多业者不谋而合。虽然Scaling law还没有到达极限,诸多AI大厂仍然在进行大量的基础设施投入,比如xAI将打造更大规模的算力集群用于训练,但已有不少人在寻求新的思路。
Scaling law的信仰危机
数据、算法、算力被认为是人工智能的三驾马车。基于规模宏大数据,利用性能更好的计算装置,训练更有效的模型,然后不断地加大投入密度,用更多的算力训练更多的数据,如此反复循环,就能稳步提升模型效果,
OpenAI无疑这种方法运用到了极致,从而缔造出GPT3.0这个划时代的大语言模型,并成功引起诸多AI公司的效仿,类似的范式也被亲切地总结为“Scaling law”。
为了成功抢占AI高地,大公司们豪掷千金,用金钱铺设了一张巨大的算力网络。媒体报道称,Meta在2023年购买了至少15万颗H100芯片,马斯克则透露xAI 的 Grok-3 用了 10 万块英伟达 H100 芯片。无数的算力需求涌向英伟达,NVIDIA也靠着卖“铲子”成为芯片一哥。
然而,“大力出奇迹”的路径很快就遇到了问题。
人们发现,模型的能力从最初的跨越式提升逐渐演化为一条平滑缓慢提升的曲线,当模型能力达到某个界点以后,每提升一小部分能力,就需要付出此前数倍的训练成本。换言之,投入的边际效益正在减少。
数据显示,从2012年的AlexNet到GPT3.0,模型参数从6000万增加到了1750亿,规模提升了2916倍,训练成本则从不到1万美金提升到数千万美金。而GPT从3.0到4.0,参数更大,投入更多,效果却不尽如人意。Sam Altman曾在斯坦福大学的一场对话中表示GPT4并不聪明,老是犯错,甚至非常愚蠢(dumbest)。
一边是前沿技术高地的争抢,一边是Scaling law的放缓,这让AI公司们陷入了两难的窘境:毫无疑问必须加大对AI的投入,但传统训练模式瓶颈逐渐显现,与之而来的是巨额成本投入却未能带来明显效果。
Meta此前公布的材料显示,LLaMA 总共使用了 2000 个 A100 GPU,并且用三周时间才能完成一次训练。根据A100的价格测算, LLaMA 单次训练的成本在 500 万美金左右。而且,对于一个模型,需要训练多次才能达到不错的效果。如此一来,训练越大规模参数的模型,其成本更高,包括芯片费用、电力费用、人力成本等等,已经让诸多AI创业公司心生乏力。
巨大的资源投入宛如一个无底洞,让人们不由得心生疑问:要实现AGI,还需要投入多少金币?或许等到许多公司都走向暮年,人们都还走在通往AGI的路上。
另一个问题是,如此巨量的投入,将导致AI公司们面临着严重的商业化问题,前期投入成本越多,导致产品在价格方面很难普众,研发成本无法摊销,进而陷入“成本高导致商业化难,商业化难则无法造血,没有造血能力就会枯竭从而死去”的恶性循环,一波深度学习AI浪潮已经提示了这种可能性。
此外, Ilya对数据的担忧正在成为现实,高质量的数据已经被顶尖的AI公司们“挥耗一空”,如何在有限数据下提升模型能力,并且在提升模型能力时降低成本,成为当前AI界讨论的重要课题。
新思路:持续学习与实时学习
有着强化学习之父的Rich Sutton在播客中表示,深度学习只是“短暂学习”(transient learning),学习结束以后就不会再学习,这违背了自然的学习模式。而AI本身需要的是“持续学习”(Continuous Learning)能力,不仅仅是追求在固定数据集上的性能,这样才能愈发接近AGI。
也就是说,「持续学习」具备时间上的延续性,需要高效利用有限的资源来维持学习过程,在环境变化时更新和调整其策略,并不断通过奖惩机制来实现进化。从某种意义上讲,「持续学习」也更接近于人的学习模式。
如果说基于经验和数据的学习方式旨在“熟能生巧”,「持续学习」则是在有效的数据、算力资源约束下,解决模型“知识遗忘”带来的重复训练成本,让学习变得更具性价比,并且在持续的学习过程中,变得更加智能。正因如此,「持续学习」也成为诸多AI公司正在研究方向。
国内外已经有诸多高校及研究机构、企业展开深入研究,例如港中文、清华等提出了多模态连续学习(MMCL)、清华大学提出了将神经启发的适应性融入人工智能中的持续学习、Intel Labs则尝试将「持续学习」应用于Neural Radiance Fields...等等。
实际上,在落地场景端,「持续学习」更能贴近人们对AI的渴望,比如自动驾驶、机器人控制、金融等等,模型需要在新数据的不断涌进下学习最新数据,变得更加智能,才能满足人们的预期。
这又衍生出另一种学习模式——“实时学习”(Real-time Learning),即时从数据中学习并迅速做出反应,进行快速决策。“实时学习”可以理解为一种另类的「持续学习」,前者侧重依赖实时数据进行决策,后者侧重于学习的整个过程,但最终目的都是实现更高的人工智能。
更具体一点,「持续学习」强调的是学习过程的连续性和持久性,涵盖模型的整个生命周期;“实时学习”则侧重于模型实际学习过程与决策的同步,模型需要在接收到数据以后立刻进行处理并进行决策。
从场景上看,「持续学习」更适合需要进行长期学习的场景,比如针对人体的健康监测、慢性病管理、智能设备上的语音助手等等;“实时学习”则适合自动驾驶、金融风控系统、股票实时交易、地震预测等等涉及实时数据处理的场景。
国内产业界对“实时学习”密切关注的并不多见,传神语联创始人何恩培认为,当下,大模型企业更加注重对模型“智慧”的深度挖掘,不应仅仅局限于盲目扩充训练数据量和参数规模,而应当具备实时学习客户数据的能力,重视数据的知识密度与质量,从而实现从数据到知识,从信息到“智慧”的高效转化。
在企业应用场景中,实时学习不仅使企业无需将提供给大模型服务商进行训练,降低了数据安全风险,同时避免了高昂的算力和人才成本投入。更重要的是,实时学习能够避免微调模式对大模型通用能力的潜在削弱,且相较于基于向量检索的模式,能更准确地输出结果,让大模型有效学习客户数据并成为客户业务领域专家,实现业务创新与优化。毫无疑问,“实时学习”已经成为业界关注并研究的重要方向。
路径收敛与AGI之路
除了「持续学习」和“实时学习”,AI研究者们也在尝试新的技术路线,并取得了不错的进展。
例如,AI研究者们发现TTC(Test-Time Compute,测试时计算)可以在资源有限或需要模型具有高度适应性的情况下显著提高模型性能。
TTC指的是在模型进行推理或测试时执行额外的计算,用以提高模型的性能或适应性。这与传统的机器学习模型不同,后者在训练阶段学习所有必要的信息,然后在测试阶段仅进行固定的前向传播计算。
MIT的研究人员发表的论文也表明,测试时间计算能够显著提高人工智能模型在推理任务上的表现。而据报道,OpenAI 的o1模型就基于TTC进行优化训练,效果非常不错。
微软首席执行官萨蒂亚·纳德拉 (Satya Nadella)盛赞TTC:“我们正在见证一条新的扩展定律的出现。”指的便是OpenAI o1模型所依赖的测试时计算。
投资公司a16z 的联合创始人 Midha 表示:许多实验表明,尽管训练前的缩放定律可能会变慢,但测试时间的缩放定律(在推理时给予模型更多的计算)可以提高性能。
TTC之外,业界也涌现出诸多工具主义,即通过提供优化训练方法,降低数据移动成本,从而提高模型扩展效率。
OpenAI CEO Sam Altman曾指出,当前能达到最佳引擎的唯一路径就是训练大量的数据,但实际模型在处理数据时浪费了许多数据资源。未来应该会出现新方法,比如将数据和推理分开,以剥离模型的推理能力对大数据的需求,并解决数据瓶颈问题、降低成本。
得益于这些研究者们的持续努力,新的方法被提出、论证并应用,极大提高了模型能力。清华NLP实验室提出的大模型密度定律(densing law)表明,模型能力密度随时间呈指数级增长,2023年以来能力密度约每3.3个月(约100天)翻一倍。而根据拟合曲线,到了明年年底,只要8B参数就能实现和GPT-4一样的效果。
这意味着业界的探索方向正朝着“不再盲目追求数据规模和堆算力”的方向演进,尽管Scaling law尚未完全失效,但更多的人注意到该定律的局限性,并探索新的解决方案。
简而言之,在通往AGI这条路上,AI研究者们从未停止探索。从达特茅斯会议到GPT3.0横空出世惊艳众人,各种新奇的架构、范式、方法被发现,推动着AI向更高的维度进阶。
这些范式和学习方法各有不同,但从客观资源(数据、算力、电力等等)的角度看,研究者们的努力方向已经收敛至探索如何花更少的资源提升更多的模型能力上,一方面为了摆脱资源瓶颈(高质量数据的缺失和节约算力电力),一方面为了探索出一条更高效的技术路径来实现AGI。
总结
现阶段,人们还无法预测AGI降临的奇点,也无法指定某一条路线为康庄大道。如何打破Scaling law的瓶颈,如何解决「持续学习」“灾难性遗忘”问题,TTC是否会成为第二定律,怎样提高实时学习的可解释性和鲁棒性,会不会涌现出新的范式……这些问题都还无法回答。
但有一点可以肯定的是,由AI这条主干分出的各条支线,终将殊途同归地引领人们走向AGI的胜利。
来源:中国财富网一点号