多模态慢思考:分解原子步骤以解决复杂数学推理

摘要:通过改变候选步骤数量,文章还探讨了多模态数学推理任务中 Test-time scaling law 的存在。随着候选步骤的增加,两个模型都呈现出不断增强的趋势,其中较弱的 LLaVA 模型即使推理时间增加十倍也没有呈现出边际效应。总结本文将原子思维能力引入多模

本文作者来自中山大学、香港科技大学、上海交通大学和华为诺亚方舟实验室等机构。第一作者项鲲为中山大学博士生,刘智立为香港科技大学博士生,姜子昊为上海交通大学硕士研究生。AtomThink 是一个包括 CoT 注释引擎、原子步骤指令微调、政策搜索推理的全流程框架,旨在通过将 “慢思考 “能力融入多模态大语言模型来解决高阶数学推理问题。量化结果显示其在两个基准数学测试中取得了大幅的性能增长,并能够轻易迁移至不同的多模态大模型当中。通过改变候选步骤数量,文章还探讨了多模态数学推理任务中 Test-time scaling law 的存在。随着候选步骤的增加,两个模型都呈现出不断增强的趋势,其中较弱的 LLaVA 模型即使推理时间增加十倍也没有呈现出边际效应。总结本文将原子思维能力引入多模态大语言模型,以解决困难的数学推理问题。文中发布了一个高质量的长 CoT 数据集以及一个关注于提升原子步骤质量的慢思考框架。该方法在解决问题的每一步都始终保持着较高的推理质量,从而提高了各种多模态数学任务的推理性能,为开发广义慢思考模型铺平了道路。参考文献[1] Lightman, Hunter, et al. "Let's verify step by step." arXiv preprint arXiv:2305.20050 (2023).[2] Snell, Charlie, et al. "Scaling llm test-time compute optimally can be more effective than scaling model parameters." arXiv preprint arXiv:2408.03314 (2024).[3] Wei, Jason, et al. "Chain-of-thought prompting elicits reasoning in large language models." Advances in neural information processing systems 35 (2022): 24824-24837.[4] Wang, Peiyi, et al. "Math-shepherd: Verify and reinforce llms step-by-step without human annotations." Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2024.[5] Wang, Jun, et al. "OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models." arXiv preprint arXiv:2410.09671 (2024).© THE END转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com

来源:溢捷

相关推荐