817样本激发7倍推理性能:上交大「少即是多」定律挑战RLScaling
在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域,业界普遍认为需要海量数据和复杂的强化学习才能获得突破。然而,来自上海交通大学的最新研究却给出了一个令人震惊的答案:仅需 817 条精心设计的样本,就能
推理 limo 挑战rlscaling 2025-02-08 17:04 3
在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域,业界普遍认为需要海量数据和复杂的强化学习才能获得突破。然而,来自上海交通大学的最新研究却给出了一个令人震惊的答案:仅需 817 条精心设计的样本,就能
推理 limo 挑战rlscaling 2025-02-08 17:04 3