o1代码

北交开源o1代码版！强化学习+蒙特卡洛树搜索

北交开源o1代码版！强化学习+蒙特卡洛树搜索

而他们的策略是将强化学习（RL）与蒙特卡洛树搜索（MCTS）相结合，让模型能够不断生成推理数据，提升其System-2能力。

开源蒙特卡洛 o1代码 2024-12-09 14:18 18