rlscaling魔力

英伟达揭示RLScaling魔力！训练步数翻倍=推理能力质变

强化学习（RL）到底是语言模型能力进化的「发动机」，还是只是更努力地背题、换个方式答题？这个问题，学界争论已久：RL 真能让模型学会新的推理技能吗，还是只是提高了已有知识的调用效率？