摘要:近年来,人工智能在语言处理、视觉生成等领域的表现令人惊叹,但在复杂的数学推理任务上仍面临挑战。微软亚洲研究院推出的新算法 rStar-Math,通过引入类似人类系统的慢思考和推理思维,显著提升了小语言模型(SLMs)的数学推理能力。rStar-Math 打破了
编者按:近年来,人工智能在语言处理、视觉生成等领域的表现令人惊叹,但在复杂的数学推理任务上仍面临挑战。微软亚洲研究院推出的新算法 rStar-Math,通过引入类似人类系统的慢思考和推理思维,显著提升了小语言模型(SLMs)的数学推理能力。rStar-Math 打破了“只有大模型才有高性能”的固有观念,证明了小语言模型经巧妙设计,同样能实现卓越的推理效果,甚至在部分奥数级别的挑战中超越了现有大语言模型。
当前大语言模型(LLMs)虽然已具备解决数学问题的能力,但其常用的推理解题思路类似于人类系统1(System 1)的直觉思维模式,速度快却易出错。在此背景下,微软亚洲研究院的研究员们提出了大语言模型可向人类系统2(System 2)偏向规则的思维范式转变,通过慢且深入的思考模式模拟人类推理的过程。为此,研究员们设计出了 rStar-Math 算法,借助蒙特卡洛搜索(MCTS)使其实现类似人类系统2深度思考的自我进化机制,将小语言模型的数学推理能力推向了新的高度。在美国数学奥林匹克竞赛中,rStar-Math 平均解决了53.3%(8/15)的问题,成绩跻身参赛高中生的前20%。
rStar-Math 的自我进化机制是如何实现的?这种自我进化能否在其他场景复用?小语言模型数学推理能力的提升,对现实世界有怎样的意义?面对人工智能数学推理能力的诸多难题,微软亚洲研究院是否还有更深入的研究计划?针对这些问题,我们和参与 rStar-Math 研究的微软亚洲研究院高级研究员张丽展开了深入对话,一同探寻 rStar-Math 背后的思考与技术细节。
微软亚洲研究院高级研究员张丽
Q:rStar-Math 这项研究试图解决什么关键问题?为何能在业界引发广泛关注?
张丽:rStar-Math 研究聚焦于一个核心问题:在数学推理领域,大语言模型是否能够通过 System 2 深度思考实现自我进化,从而在资源受限的情况下,大幅提升推理能力,显著降低高性能人工智能的应用门槛。我们希望通过这一探索突破现有模型的推理能力极限,为提升大语言模型能力开辟新方向。
随着 OpenAI o1/o3 模型在数学和代码等复杂推理任务中展现出卓越性能,测试时推理(test-time scaling laws)方法开始被视为提升大模型性能的新范式。然而,这些模型的具体技术路线尚不明确。我们的 rStar-Math 是首个公开发布的技术研究报告,填补了这一领域的空白。值得注意的是,rStar-Math 并未像领先的大模型(例如 GPT-4o 或 o1)一样进行蒸馏,而是利用极为有限的资源,在仅 7B 参数量的模型上实现了更高的数学推理水平,甚至在某些奥数级别测试中超越了 o1 的数学推理表现。
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
论文链接:
Q:业界对 rStar-Math 的反馈如何?有没有哪些反馈给你留下了深刻的印象,甚至促使你和团队对相关研究有了新的想法?
张丽:rStar-Math 的“爆火”让我们既惊喜又意外。rStar-Math 不仅在学术圈内引发了广泛关注,还“破圈”吸引了很多媒体的目光,超出了我们的预期。许多媒体对 rStar-Math 的意义都给予了高度评价,尤其强调它仅用 7B 小模型实现复杂推理的能力,展现出了低资源、高效率的路径。相比当前许多需要庞大算力支持的工具,这一成果降低了对计算资源的依赖,既节能环保,又为小模型更广泛的实际应用打开了大门。
相关领域研究人员对我们仅通过四轮自我进化就能取得如此优异的效果表示惊喜。我留意到,社区称赞 rStar-Math 在蒙特卡洛算法中利用 Q-value 自动标注推理步骤奖励分数的设计简洁有效。作为研究者,看到这些评价让我感到非常欣慰,因为我始终相信,最优雅的解决方案往往是最简洁的,这与“大道至简”的理念不谋而合。
当然,也有质疑声音,例如有人对小模型能达到如此优异的效果感到难以置信。这些反馈让我们意识到,代码和数据的开源不仅是验证研究成果的最佳方式,也有助于解答社区的疑问,推动人工智能研究的交流与创新。因此,我们计划尽快开源 rStar-Math 的代码和数据,一方面为其他研究者提供便利,同时也希望借此促进更广泛的合作和讨论,共同推动这一领域的进步。
Q:rStar-Math 中引入了自我进化的 System 2 推理方法,这种自我进化具体是如何实现的,在其他场景中是否具有可复用性?
张丽:rStar-Math 的自我进化过程与人类的深度思考有许多相似之处。人类面对复杂问题时,深入思考能加深对问题本身及多种解题路径的理解,更精准找到解决方案。许多突破性成果正是源自这样的深度思考,而过程中积累的成功与失败经验则推动了认知与能力的提升。
从技术层面看,rStar-Math 通过蒙特卡洛搜索算法实现了类似人类的深度思考自我进化机制。我们分别训练了一个数学策略模型(7B 参数)和一个奖励模型(7B 参数的推理步骤偏好模型),对于74.7万道数学题进行深度推理。每一轮推理结束后,高质量解题数据会被收集,用于更新数学策略模型,推理步骤偏好的反馈则会进一步优化奖励模型。随着迭代推进,两个模型不断变强,再次对相同数学题进行更深度的推理。通过循环这一过程,rStar-Math 不仅显著提升了推理能力,还展现出类似人类深度思考后自我进化的特质,持续突破自身局限。
这种基于深度思考的自我进化机制具有广泛的适用性,我们正在积极探索将其应用于其他领域,以挖掘大模型的更多潜力。
rStar-Math 概览
Q:rStar-Math 的研究对现实世界将产生怎样的影响?它能够为哪些行业或场景带来价值?
张丽:rStar-Math 的设计理念和技术思路不仅在数学推理领域大放异彩,还能在其他复杂推理场景中发挥重要作用。例如,在代码生成与调试领域,它可以显著提高代码生成的准确性,快速识别并修复潜在问题;在智能体规划方面,它支持更复杂的多步骤任务执行,赋予智能体更强的灵活性、效率和自主决策能力。
Q:rStar-Math 的研究是否证明了小模型叠加使用可以在保持低算力和低能耗的同时,达到甚至超越大模型性能?这对于人工智能模型的普及和加速落地意味着什么?
张丽:我们的研究并非否认模型规模与性能之间的关联。通常,在相同训练方法和高质量数据的支持下,规模更大的模型能带来更优的用户体验。然而,rStar-Math 的创新之处在于,证明了小模型在特定垂直领域也可以实现卓越的推理能力。通过巧妙的设计和方法,即使在资源受限的条件下,小模型同样可以拥有强大的竞争力,甚至在某些方面可以与大模型一较高下。
当前,高质量的大模型往往依赖庞大的算力和昂贵的计算资源,而 rStar-Math 展现出一条低算力、低能耗的创新路径,使小模型在特定领域实现实用价值。这一突破显著降低了高质量人工智能应用的推理成本。
Q:目前人工智能在解决数学推理问题方面还面临哪些困难和值得深入研究的方向?针对这些问题,你和团队是否有进一步的研究计划?此外,你还看到了人工智能领域中哪些值得关注的问题和研究趋势?
张丽:尽管人工智能在数学推理方面已取得显著进展,但要成为数学家解决复杂问题的得力助手,仍面临不少挑战。不过,我们对此持非常积极的态度,也在积极探索新的路径,力求攻克这些难题。
至于人工智能领域的未来发展,我们认为2025年将是一个重要的转折点,人工智能技术将加速渗透到各行各业,真正释放实用价值。我们也非常关注这一趋势,希望探索当前的创新思路是否能跨越领域的界限,解决更多复杂的任务。这种跨领域的潜力是我们研究的重要方向,也让我们充满期待。
来源:微软亚洲研究院