英伟达揭示RLScaling魔力!训练步数翻倍=推理能力质变
强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题?这个问题,学界争论已久:RL 真能让模型学会新的推理技能吗,还是只是提高了已有知识的调用效率?
英伟达 推理 质变 rlscaling魔力 rlscalin 2025-06-05 03:09 3
强化学习(RL)到底是语言模型能力进化的「发动机」,还是只是更努力地背题、换个方式答题?这个问题,学界争论已久:RL 真能让模型学会新的推理技能吗,还是只是提高了已有知识的调用效率?
英伟达 推理 质变 rlscaling魔力 rlscalin 2025-06-05 03:09 3