英伟达发布新 RL 范式:受 DeepSeek-R1 启发,提升AI决策深度 科技媒体 marktechpost 昨日(5 月 13 日)发布博文,报道称英伟达联合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 启发,采用新型强化学习(RL)范式,强化模型推理能力。 英伟达 推理 范式 rl rl范式 2025-05-14 14:03 2