现在的大模型现状，就是豪赌

摘要：到了2025年开始，过去的PretrainingScalingLaw想继续往下走非常有挑战，甚至优先级也已经放低，要寻求一条新的路径。这条新的路径不一定能走通，它的想象空间巨大，但是有很强的不确定性。因为Self-play这样的前沿研究，将会耗费巨大的资源和时

昨天下午我们做了我们这个月的大模型进度更新路演，用一个词来总结现在的大模型现状，就是豪赌，如果最后证明能走通，那么想象空间会是巨大的。

如果说2023年大模型开始讲ScalingLaw的故事，那么2024年是ScalingLaw开始有挑战了。

到了2025年开始，过去的PretrainingScalingLaw想继续往下走非常有挑战，甚至优先级也已经放低，要寻求一条新的路径。这条新的路径不一定能走通，它的想象空间巨大，但是有很强的不确定性。因为Self-play这样的前沿研究，将会耗费巨大的资源和时间，但在今天这个时点来看，仍然是个概率事件。

换言之，我们现在在大模型的豪赌阶段，站在十字路口，有着巨大的不确定性。

在去年我们路演草莓和强化学习，以及之后O系列刚推出的时候，我们假设仍然有一条清晰的ScalingLaw。这条路径来自于合成数据，合成数据泛化后反哺Pre-train，再到更强、更大参数的通用模型。

但在现在这个时间点上，数据已经成为明确的瓶颈，合成数据短期内也无法提升知识的广度。泛化、反哺都没看到明显的突破，反哺Pre-train的路径阶段性停滞了。

现在有可能成功的ScalingLaw是在O系列模型中，在Post-train阶段，通过RL让模型学会自主和Adaptive的COT。

要走通这条路径，需要实现Self-play的RL。自我博弈，自我提升。算力越大，博弈次数越多，模型能力就能取得渐进提升。也就是用算力换数据。

如果用AlphaGo和AlphaZero对比，AlphaGo是与人对齐，AlphaZero就是与自己对齐，实现的是自博弈。AlphaZero完全没有学习人类的棋谱，就是靠两个下棋的模型和一个评判模型，互相博弈，互相提升，最后到远远超过人类天花板。

所以如果要突破数据生成速度带来的边际瓶颈，我们需要的是一套超越RLHF的模型，真正实现Policy和RewardModel互相博弈，无限算力换无限数据，最终超越人类水准。

但在现在，我们还没有真正验证超大规模的Self-playRL的实际效果，尤其是对于下游应用的带动作用。以及我们大概率也还没找到Post-trainRL泛化的路径。Pre-train有非常多各类的数据，可以实现泛化。Post-trainRL的数据非常集中，在编程和解题外，是否能泛化到其他领域，仍然没有找到答案。

目前来看最大的瓶颈在算力。

现在需要足够多的算力，来做足够多的实验，从而证明亦或是证伪O系列的ScalingLaw，驱动O系列达到“GPT3Moment”。

所以未来一段时间，头部大模型公司的主要期待，就是等GB和NVL72的大集群，然后有指数级别算力提升，去尝试Self-playRL，尝试更多的路径，尝试泛化。

如果成立，那这条ScalingLaw跑通，我们进入Nextperiod，未来的想象空间可以无限放大。

如果失败，那么这轮AGI的进程就可能遇到一次非常非常大的挑战，甚至这轮AGI也就这样了。

所以回到为什么是一场豪赌。

因为在现在这个阶段是没有答案的。我们耗费巨大的算力，有可能对，也有可能错。

但是没有这轮的算力，我们可能连对错都不知道。

这是一次没有明确ROI的豪赌。前沿研究，就是你投了很多钱，希望能有产出。我们都与人类统一战线保持乐观，但最后可能还是有风险做不下去。

就不难明白，为什么会有现在的Stargate项目，以及这个项目的资金方为什么会是现在这些公司。这比大模型发展至今的任何时刻，都更加像阿波罗计划。当阿波罗计划刚开始的时候，没有人知道到底能不能把人送上月球。

我们相信，机会总是在豪赌中产生。

我们在这次路演中，还讨论了O1到O3的变化，集群变化，CUDA变化，Research的习惯变化，ASIC的适应情况，推理的变化，以及算力消耗的影响。