北交开源o1代码版!强化学习+蒙特卡洛树搜索 而他们的策略是将强化学习(RL)与蒙特卡洛树搜索(MCTS)相结合,让模型能够不断生成推理数据,提升其System-2能力。 开源 蒙特卡洛 o1代码 2024-12-09 14:18 2