cppo

在GSM8K上比GRPO快8倍！厦大提出CPPO，让强化学习快如闪电

不同于 PPO（近端策略优化），GRPO 是直接根据组分数估计基线，因此消除了对 critic 模型的需求。但是，这又需要为每个问题都采样一组完成结果，进而让训练过程的计算成本较高。