817样本激发7倍推理性能:上交大「少即是多」定律挑战RLScaling
在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域,业界普遍认为需要海量数据和复杂的强化学习才能获得突破。然而,来自上海交通大学的最新研究却给出了一个令人震惊的答案:仅需 817 条精心设计的样本,就能
推理 limo 挑战rlscaling 2025-02-08 17:04 11
在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域,业界普遍认为需要海量数据和复杂的强化学习才能获得突破。然而,来自上海交通大学的最新研究却给出了一个令人震惊的答案:仅需 817 条精心设计的样本,就能
推理 limo 挑战rlscaling 2025-02-08 17:04 11
2月3日,李飞飞和斯坦福大学等团队在arXiv上发表了一篇名为《s1: Simple test-time scaling》的论文,仅在16块H100上微调26分钟,以不到50美元的价格训练出的新模型s1-32B,数学及编程能力与OpenAI o1及DeepSe
不同质量推理链的定量分析五、未来展望:少即是多的无限可能尽管 LIMO 在极小数据量的情况下在数学推理方面取得了显著成功,但未来的研究仍然充满挑战和机遇。1. 领域泛化将 LIMO 假设扩展到更广泛的推理领域是一个关键方向。虽然当前的研究主要集中在数学推理上,