摘要:到了2025年开始,过去的PretrainingScalingLaw想继续往下走非常有挑战,甚至优先级也已经放低,要寻求一条新的路径。这条新的路径不一定能走通,它的想象空间巨大,但是有很强的不确定性。因为Self-play这样的前沿研究,将会耗费巨大的资源和时
昨天下午我们做了我们这个月的大模型进度更新路演,用一个词来总结现在的大模型现状,就是豪赌,如果最后证明能走通,那么想象空间会是巨大的。
如果说2023年大模型开始讲ScalingLaw的故事,那么2024年是ScalingLaw开始有挑战了。
到了2025年开始,过去的PretrainingScalingLaw想继续往下走非常有挑战,甚至优先级也已经放低,要寻求一条新的路径。这条新的路径不一定能走通,它的想象空间巨大,但是有很强的不确定性。因为Self-play这样的前沿研究,将会耗费巨大的资源和时间,但在今天这个时点来看,仍然是个概率事件。
换言之,我们现在在大模型的豪赌阶段,站在十字路口,有着巨大的不确定性。
在去年我们路演草莓和强化学习,以及之后O系列刚推出的时候,我们假设仍然有一条清晰的ScalingLaw。这条路径来自于合成数据,合成数据泛化后反哺Pre-train,再到更强、更大参数的通用模型。
但在现在这个时间点上,数据已经成为明确的瓶颈,合成数据短期内也无法提升知识的广度。泛化、反哺都没看到明显的突破,反哺Pre-train的路径阶段性停滞了。
现在有可能成功的ScalingLaw是在O系列模型中,在Post-train阶段,通过RL让模型学会自主和Adaptive的COT。
要走通这条路径,需要实现Self-play的RL。自我博弈,自我提升。算力越大,博弈次数越多,模型能力就能取得渐进提升。也就是用算力换数据。
如果用AlphaGo和AlphaZero对比,AlphaGo是与人对齐,AlphaZero就是与自己对齐,实现的是自博弈。AlphaZero完全没有学习人类的棋谱,就是靠两个下棋的模型和一个评判模型,互相博弈,互相提升,最后到远远超过人类天花板。
所以如果要突破数据生成速度带来的边际瓶颈,我们需要的是一套超越RLHF的模型,真正实现Policy和RewardModel互相博弈,无限算力换无限数据,最终超越人类水准。
但在现在,我们还没有真正验证超大规模的Self-playRL的实际效果,尤其是对于下游应用的带动作用。以及我们大概率也还没找到Post-trainRL泛化的路径。Pre-train有非常多各类的数据,可以实现泛化。Post-trainRL的数据非常集中,在编程和解题外,是否能泛化到其他领域,仍然没有找到答案。
目前来看最大的瓶颈在算力。
现在需要足够多的算力,来做足够多的实验,从而证明亦或是证伪O系列的ScalingLaw,驱动O系列达到“GPT3Moment”。
所以未来一段时间,头部大模型公司的主要期待,就是等GB和NVL72的大集群,然后有指数级别算力提升,去尝试Self-playRL,尝试更多的路径,尝试泛化。
如果成立,那这条ScalingLaw跑通,我们进入Nextperiod,未来的想象空间可以无限放大。
如果失败,那么这轮AGI的进程就可能遇到一次非常非常大的挑战,甚至这轮AGI也就这样了。
所以回到为什么是一场豪赌。
因为在现在这个阶段是没有答案的。我们耗费巨大的算力,有可能对,也有可能错。
但是没有这轮的算力,我们可能连对错都不知道。
这是一次没有明确ROI的豪赌。前沿研究,就是你投了很多钱,希望能有产出。我们都与人类统一战线保持乐观,但最后可能还是有风险做不下去。
就不难明白,为什么会有现在的Stargate项目,以及这个项目的资金方为什么会是现在这些公司。这比大模型发展至今的任何时刻,都更加像阿波罗计划。当阿波罗计划刚开始的时候,没有人知道到底能不能把人送上月球。
我们相信,机会总是在豪赌中产生。
我们在这次路演中,还讨论了O1到O3的变化,集群变化,CUDA变化,Research的习惯变化,ASIC的适应情况,推理的变化,以及算力消耗的影响。
来源:重诚文化