rlscaling

817样本激发7倍推理性能：上交大少即是多定律挑战RL Scaling范式

在追求人工智能极限的道路上，"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域，业界普遍认为需要海量数据和复杂的强化学习才能获得突破。然而，来自上海交通大学的最新研究却给出了一个令人震惊的答案：仅需 817 条精心设计的样本，就能

推理 rl rlscaling 2025-02-06 18:21 18