DeepSeek-R1、o3背后,RL推理训练正悄悄突破上限 这个月 AI 社区很热闹,尤其是 Llama 4 和 GPT-4.5 等新旗舰模型的发布。但你可能已经注意到,人们对这些新模型的反应相对平淡。原因之一可能是 Llama 4 和 GPT-4.5 仍然是传统的模型,这意味着它们的训练没有使用明确的强化学习进行推理 训练 推理 rl ppo rl推理 2025-05-23 00:02 3