rl推理

DeepSeek-R1、o3背后，RL推理训练正悄悄突破上限

这个月 AI 社区很热闹，尤其是 Llama 4 和 GPT-4.5 等新旗舰模型的发布。但你可能已经注意到，人们对这些新模型的反应相对平淡。原因之一可能是 Llama 4 和 GPT-4.5 仍然是传统的模型，这意味着它们的训练没有使用明确的强化学习进行推理