在GSM8K上比GRPO快8倍!厦大提出CPPO,让强化学习快如闪电 不同于 PPO(近端策略优化),GRPO 是直接根据组分数估计基线,因此消除了对 critic 模型的需求。但是,这又需要为每个问题都采样一组完成结果,进而让训练过程的计算成本较高。 厦大 快如闪电 grpo cppo gsm8k 2025-04-01 15:22 3