摘要:近日,香港中文大学(深圳)数据科学学院王本友教授团队在第二届人工智能数学奥林匹克竞赛(AI MATHematical Olympiad Progress Prize 2, AIMO2)中脱颖而出,斩获金牌。此次竞赛由全球顶尖量化交易公司XTX Markets发
近日,香港中文大学(深圳)数据科学学院王本友教授团队在第二届人工智能数学奥林匹克竞赛(AI MATHematical Olympiad Progress Prize 2, AIMO2)中脱颖而出,斩获金牌。此次竞赛由全球顶尖量化交易公司XTX Markets发起,并由Kaggle平台主办,作为国际数学奥林匹克竞赛(International Mathematical Olympiad, IMO)的AI版本,该赛事旨在激励开发者创建能够媲美IMO顶尖人类选手表现的开源AI模型,推动AI数学推理能力的突破性发展。
人工智能数学奥林匹克(AI Mathematical Olympiad Progress Prize 2,AIMO2)是由全球顶尖量化交易公司XTX Markets发起、Kaggle平台主办的里程碑式AI竞赛。作为国际数学奥林匹克(IMO)的AI版本,赛事旨在推动开源AI模型的数学推理能力突破,目标是开发出能与IMO顶尖人类选手比肩的人工智能系统。AIMO2是继2024年首届竞赛后的第二届赛事。
竞赛通过110道国家级奥赛难度的原创数学题(涵盖代数、组合、几何与数论),专门挑战当前AI模型的极限,要求参赛系统输出精确的数值答案。所有参赛团队必须使用开源大语言模型(LLM),并在规定的有限算力条件下完成解题任务。这对算法的效率和准确性提出了双重挑战。
本届赛事总奖金池高达211万美元,吸引了全球顶尖团队的激烈角逐。其影响力不仅体现在创纪录的奖金规模上,更在于构建了一个透明、防数据泄露的评估体系,为AI数学推理能力确立了黄金标准。竞赛直接瞄准人类顶级数学思维能力的机械化重构,若在这一领域取得突破,将推动AI在科学研究、工程优化、金融建模等领域的颠覆性应用,甚至可能催生出具备自主数学发现能力的下一代AI系统。
赛事特别设立“早期分享奖”,鼓励开源协作,加速全球AI社区在符号推理与复杂问题解决领域的集体进步,被业界视为衡量通用人工智能(AGI)演进的关键风向标之一。
Source: https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-2
获奖方案及团队介绍
王本友教授团队与华为技术团队联合提出的方案在50道Private榜单上答对了28道题,在2,000多个全球参赛队伍中排名前0.4%,最终获得金牌。这一优秀成绩的背后,是团队在以下关键环节的创新突破:
训练优化
在模型训练阶段,采用小样本微调结合强化学习的混合策略,通过结果导向的奖励机制充分挖掘模型潜力。数据工程层面构建了基于先验难度与后验难度的双重评估机制,结合场景适配需求动态调整训练数据的难度分布,并采用渐进式多阶段微调方案实现模型能力的阶梯式提升。通过构建规则过滤与模型验证的双重质检体系,有效提升数据可信度,抑制推理过程中的幻觉生成。最终采用模型权重集成技术融合多模型优势,并对集成后的模型实施低比特量化压缩。
解码加速
针对复杂推理场景中模型过度思考导致的效率瓶颈,研发团队提出Short Vote高效投票算法。该方案突破性地在解码阶段引入动态终止机制,通过GPU并行计算优势实现多推理路径的同步探索。具体而言,在保持次线性时间开销的前提下,通过截断冗余生成过程并在短答案维度进行投票决策,有效平衡推理质量与计算效率。该设计的核心在于:并行扩展推理路径带来的时间成本增幅次线性增长,而序列长度对计算资源的消耗呈超线性关系。通过提升并行采样规模,在有限时间内最大限度释放大模型的推理潜力。
本次获奖的联合团队成员包括:
香港中文大学(深圳)
▪️许俊骁(计算机科学哲学硕士-博士生)
▪️刘万隆(研究助理)
▪️林煜康(研究助理)
▪️余菲(计算机科学专业博士生)
▪️王荣胜(研究助理)
▪️张藉元(研究助理)
▪️蔡镇阳(人工智能与机器人理学硕士项目硕士生)
▪️罗童旭(研究助理)
▪️冀轲(计算机科学专业博士生)
▪️杨允津 (研究助理)
▪️张辰 (研究助理)
▪️侯建业 (计算机与信息工程博士)
其他合作团队
▪️华为诺亚方舟语音语义实验室
▪️华为小艺团队
▪️是石科技提供算力支持
王本友教授团队科研成果
数学推理能力不仅是衡量人工智能发展水平的关键指标,更是其解决复杂工程设计、金融建模等现实世界难题的基石。人工智能数学奥林匹克竞赛(AIMO)被认为是数学推理领域最难的测试之一,正是检验AI在该领域能力的试金石。若AI能够成功应对这类高难度问题,不仅将深刻变革现有的教育模式,更有望为未来的数学乃至科学研究带来范式上的突破。以下为王本友教授团队在相关领域的科研成果介绍:
大模型在数学推理方面
OVM算法:首个将13B以下的模型在知名数学推理数据集GSM-8K上取得80%以上的准确率的算法
王本友教授团队在数学推理和数学建模领域有深厚的积累,其中基于结果监督的价值模型OVM算法[1]是首个将13B以下的模型在知名数学推理数据集GSM-8K上取得80%以上的准确率的算法。基于结果监督价值模型(Outcome-supervised Value Models,OVM)通过结果监督训练,为规划提供了一种高效且直观的方法。OVM通过优先考虑能够导致结论的步骤,而不是仅仅关注每一步的正确性,来实现这一目标。此外,OVM摒弃了劳动密集型的步骤级正确标注的需求,从而提升了其可扩展性。在GSM8K数据集中,OVM-7B模型在不使用GPT-4或代码执行的情况下,实现了13B参数以下大模型中的最佳性能。截至24年7月,在最流行的数学推理数据集上GSM-8K(点击查看详情),前20名的几乎所有开源方案都使用了OVM解决方案。
[1] Fei Yu, Anningzhe Gao, Benyou Wang. OVM, Outcome-supervised Value Models for Planning in Mathematical Reasoning. Findings of NAACL 2024. https://arxiv.org/abs/2311.09724
MathScale:联合微软亚洲研究院,创建高质量数学推理数据的简单且可扩展方法
王本友教授团队联合微软亚洲研究院提出的MathScale [2] 是一种利用前沿大型语言模型(如GPT-3.5)创建高质量数学推理数据的简单且可扩展方法。该方法启发于人类数学学习的认知机制,首先从种子数学问题中提取主题和知识点,再构建概念图,用以生成新的数学问题。通过这种方式,团队成功创建了一个包含两百万数学题目-答案对的数学推理数据集(MathScaleQA)。为全面评估大型语言模型在数学推理能力上的表现,团队构建了MWPBENCH基准,这是一个包括GSM8K和MATH在内的十个数据集的集合,覆盖了从K-12到大学及竞赛级别的数学问题。将MathScaleQA用于对开源大型语言模型(例如LLaMA-2和Mistral)进行微调,显著提高了它们在数学推理上的能力。在MWPBENCH上的评估显示,MathScale-7B在所有数据集上均达到了最先进的性能,其微平均准确率和宏平均准确率分别比同等大小的最佳模型高出42.9%和43.7%。该论文被ICML 2024接受。
[2] Zhengyang Tang, Xingxing Zhang, Benyou Wang, Furu Wei. MathScale: Scaling Instruction Tuning for Mathematical Reasoning. ICML 2024. https://arxiv.org/abs/2403.02884 , 港中大(深圳)和微软亚洲研究院合作论文
Omni-MATH:联合阿里Qwen团队发布的奥林匹克级数学推理评估基准
Omni-MATH [3] 是王本友教授课题组联合阿里Qwen团队联合发布的奥林匹克级数学推理评估基准,旨在系统衡量大语言模型在复杂数学问题上的推理能力。该数据集共收录 4428 道来自全球竞赛的高质量题目,覆盖代数、几何、离散数学、微积分等 33 个子领域与 10 余个难度等级,具备细致的层次化结构。Omni-MATH 引入 GPT-4o 与自研开源判题器Omni-Judge 进行双重评估,确保结果准确可靠。实验表明,即便是最先进的模型OpenAI o1-mini 准确率也仅为 60.54%,当前最佳开源模型Qwen2.5-MATH-72B-Instruct 仅达 36.2%,凸显奥数级问题对模型推理能力的极大挑战。该基准不仅推动了评估体系的精细化,也为提升数学大模型性能提供了重要路径。该论文被ICLR 2025接受。
[3] Bofei Gao, Feifan Song, Zhe Yang, Zefan Cai, Yibo Miao, Qingxiu Dong, Lei Li, Chenghao Ma, Liang Chen, Runxin Xu, Zhengyang Tang, Benyou Wang, Daoguang Zan, Shanghaoran Quan, Ge Zhang, Lei Sha, Yichang Zhang, Xuancheng Ren, Tianyu Liu, Baobao Chang. Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models. ICLR 2025 https://arxiv.org/abs/2410.07985,港中大(深圳)和阿里Qwen合作论文
大模型在数学建模方面
MAMO基准:SDS本科生领导,面向数学建模能力评估的大型语言模型基准
在数学建模方面,由香港中文大学(深圳)大三学生黄旭涵和沈清宁领导的MAMO[4] 是面向数学建模能力评估的大型语言模型基准,旨在突破传统以答案为导向的数学评测范式,转而关注模型在理解现实问题、抽象建模与程序化求解过程中的能力。MAMO涵盖1209道高质量问题,覆盖微分方程与线性/混合整数规划两大建模核心领域,结合主流求解器(如COPT和SciPy)构建“建模-求解-验证”闭环评估流程,确保模型在抽象表达、格式化输出与真实可解性上的准确性与一致性。MAMO独创“终态评估”策略,通过执行模型构建出的代码/模型文件并与标准答案比对,精准区分建模与计算误差。在大规模实证中,GPT-4o展现出领先的建模能力(整体正确率达68.1%),而绝大多数开源模型仍显著落后,表明“从语言到数学模型”的通用能力仍是LLM 的关键挑战之一。MAMO的提出不仅填补了数学建模评估空白,也为推进语言模型通往具备抽象能力的通用智能奠定了基础。
[4] Xuhan Huang, Qingning Shen, Yan Hu, Anningzhe Gao, Benyou Wang. Mamo: a Mathematical Modeling Benchmark with Solvers. Findings of NAACL 2024. https://arxiv.org/abs/2405.13144v2
ORLM模型:联合杉数科技开发的首个数学建模大模型
王本友教授课题组联合杉数科技开发的ORLM[5] 是首个数学建模大模型,杉数在ORLM基础上做了训练和针对业界的进一步适配,推出了COLORMind平台,推动ORLM进一步落地。ORLM在全球数字经济大会(GDEC)和世界人工智能大会(WAIC)的展示在业界引起很大反响,该模型已在杉数科技的生产系统中实际部署使用。论文被Operations Research接受。
[5] Chenyu Huang, Zhengyang Tang, Shixi Hu, Ruoqing Jiang, Xin Zheng, Dongdong Ge, Benyou Wang, Zizhuo Wang. ORLM: A Customizable Framework in Training Large Models for Automated Optimization Modeling. Operations Research. https://arxiv.org/abs/2405.17743 港中大(深圳)和杉数科技合作论文
从数学到医疗复杂诊断
HuatuoGPT-o1:首个的医疗复杂推理大模型
在这些数学推理和数学建模的影响下,王本友教授团队开发了HuatuoGPT-o1[6] 。HuatuoGPT-o1是首个的医疗复杂推理大模型,它基于“可验证医学问题”,聚焦于提升大模型在真实医疗场景下的严谨推理与决策能力。该模型提出“搜索-强化”两阶段训练范式:第一阶段结合策略引导的推理轨迹搜索与可验证问题反馈,实现复杂Chain-of-Thought(CoT)学习;第二阶段利用基于PPO的强化学习,结合医学验证器奖励进一步优化模型推理路径。HuatuoGPT-o1 仅基于4万条高质量验证样本,在MedQA、MedMCQA、PubMedQA 等多个医疗基准集上全面超越 Qwen2.5、UltraMedical、BioMistral 等通用与医学专用大模型。其“先思后答”(thinks-before-it-answers)能力实现了医疗问答场景中长推理链、反思与纠错式问诊,是医疗推理LLM发展的关键突破,为下一代医学AI奠定了新范式。该成果在GitHub获得了超过千次的GitHub收藏星标。
[6] Junying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang. HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs. https://arxiv.org/abs/2412.18925
教授介绍
王本友
数据科学学院 助理教授
研究领域:
自然语言处理、信息检索、应用机器学习
个人简介:
王本友教授于2022年在意大利帕多瓦大学取得博士学位(受欧盟玛丽居里奖学金资助),曾在丹麦哥本哈根大学、加拿大蒙特利尔大学、荷兰阿姆斯特丹大学、华为诺亚方舟实验室、中科院理论物理所、社科院语言所交流访问。王教授的主要研究方向为大模型应用、多模态大语言模型、AI4Math和Human-Agent Interaction。他曾四次获得了会议最佳论文或提名奖,包括CCF A类会议SIGIR 2017的最佳论文提名奖、CCF B类会议NAACL 2019最佳可解释NLP论文,CCF C类会议NLPCC 2022的最佳论文和ICLR 2025 Financial AI最佳论文。他还获得了华为火花奖、腾讯犀牛鸟项目、滴滴盖亚学者项目和华为AI百校计划。团队开发了医疗大模型华佗GPT等多个大模型,相关工作得到了Nature、金融时报(Financial Times)、CCTV、环球时报、深圳卫视、南方都市报等采访和报道。
港中大(深圳)数据科学学院介绍
数据科学学院是香港中文大学(深圳)人工智能的科研与教学基地,致力于为学校提供包括计算机科学、统计学、大数据科学等在内的人工智能基础教育。学院现有80余位来自世界各地的全职教授,汇聚了多位国际知名学者,超过35%的全职教授为院士、会士或全球顶尖科学家。这些学者在机器学习、自然语言处理、计算机视觉等前沿领域具有卓越的学术成就与科研贡献。作为学校在人工智能领域的重要支柱,数据科学学院不断推动技术创新与跨学科合作,为培养具备全球视野的人工智能人才提供了坚实的基础。
来源:科创最前沿