YEF2025 | 强化学习如何重塑大模型推理格局?

360影视 欧美动漫 2025-05-14 09:09 1

摘要:强化学习在大模型对齐、推理领域彰显出超凡实力,其奠基者Sutton凭借开创性贡献荣膺2024年图灵奖,标志着这一技术获得全球计算机学界最高认可。当下,强化学习与大模型深度交融,正在重塑大模型推理格局,为复杂推理、多模态生成、人机交互等前沿应用领域带来了新的发展

强化学习在大模型对齐、推理领域彰显出超凡实力,其奠基者Sutton凭借开创性贡献荣膺2024年图灵奖,标志着这一技术获得全球计算机学界最高认可。当下,强化学习与大模型深度交融,正在重塑大模型推理格局,为复杂推理、多模态生成、人机交互等前沿应用领域带来了新的发展机遇。

然而,技术突破始终伴随挑战,如强化学习试错训练与大模型推理的叠加带来高计算成本、稀疏反馈难以指导高维输出空间下的策略学习、训练过程的不稳定性可能导致梯度异常或模式崩溃等。这些技术瓶颈正制约着强化学习在大模型推理中的应用。

为此,本次论坛聚焦 “强化学习如何重塑大模型推理格局”主题,围绕该领域的最新研究成果、技术路径及未来趋势展开深入交流。期望通过嘉宾与听众深入的研讨与思辨,促进强化学习与大模型推理的深入融合与创新突破,为大模型的发展注入新动力。

论坛安排

1人机交互式学习:面向混合智能的强化学习新范式兴军亮清华大学2大模型时代下的强化学习郝建业天津大学3强化扩展驱动的大模型复杂推理能力提升东昱晓清华大学4多模态大模型的图文混合推理方法魏忠钰复旦大学5大模型多智能体的自演进陈思衡上海交通大学6panel兴军亮清华大学郝建业天津大学东昱晓清华大学魏忠钰复旦大学陈思衡上海交通大学陈旭中国人民大学

执行主席

魏巍

CCF杰出会员,山西大学计算机与信息技术学院(大数据学院)教授、副院长

三晋英才—青年优秀人才,山西大学计算机与信息技术学院(大数据学院)教授、副院长。长期从事数据挖掘、机器学习、无人系统等方面的研究。先后主持和参与国家重点研发计划项目、国家自然科学基金重点项目、国家自然科学基金面上项目、山西省自然科学基金项目10余项。重点围绕强化学习、表示学习等领域的基础科学问题开展系统研究,先后在《IEEE TKDE》、《Machine Learning》、NeurIPS、ICML、IJCAI、AAAI等重要学术期刊会议发表论文50余篇,获国家发明专利4项。

论坛讲者

兴军亮

清华大学计算机系研究员

清华大学计算机系研究员。长期从事智能感知与决策相关研究,曾获ACM Multimedia 2013最佳论文奖,ACM Multimedia 2023勇敢创新奖、AAAI 2022卓越论文奖、以及PRCV 2020最佳论文奖,并数十次在国内外重要技术竞赛中获奖。发表CCF-A类论文100余篇,第一/通信作者论文50余篇,被引超过21000次。研究成果先后获吴文俊人工智能自然科学一等奖(序1)、指控学会科技进步一等奖(除牵头单位序1)和军事技术发明一等奖。

报告题目:《人机交互式学习:面向混合智能的强化学习新范式》

报告摘要:本报告首先介绍以强推理型大模型为代表人工智能技术飞速发展所带来的潜在机遇与挑战,然后介绍人工智能发展的另一种形态人机混合智能和相关思考,以及面向人机混合智能的强化学习新范式:人机交互式学习,最后介绍我们围绕人机交互式学习做的一些最新工作。

郝建业

华为诺亚决策推理实验室主任,天津大学智算学部教授

华为诺亚决策推理实验室主任,天津大学智算学部教授。主要研究方向为强化学习、具身智能。发表人工智能领域CCF-A类国际会议和期刊论文100余篇,专著2部。 获得国家自然科学基金委优青、国家科技部2030人工智能重大课题、基金委人工智能重大培育等项目资助10余项,研究成果荣获国际会议最佳论文奖3次,NeurIPS 20-22大会竞赛冠军4次。相关成果在国产工业基础软件智能化、自动驾驶、游戏AI、广告及推荐、5G优化、物流调度等领域落地应用。

报告题目:《大模型时代下的强化学习》

报告摘要:本报告首先会介绍传统强化学习背景和基础,然后介绍在大模型时代下新的决策模型学习范式,以及强化学习如何助力决策模型及其所面临的挑战和解决方案,同时介绍在具身智能和agent等方向最新进展。

东昱晓

YOCSEF总部AC,清华大学计算机系副教授

清华大学计算机系副教授,曾工作于脸书人工智能和微软总部研究院,研究方向为基础大模型、数据挖掘、图机器学习,相关学术成果应用于多个大模型系列产品和系统。入选2024年清华大学“清韵烛光-我最喜爱的教师“(每两年10位),获2022 ACM SIGKDD新星奖。

报告题目:《强化扩展驱动的大模型复杂推理能力提升》

报告摘要:大模型在复杂推理任务中表现出惊人的能力。报告将分享T1深度推理模型及相关扩展强化学习技术。其使用包含集成试错和自我验证的合成思维链数据初始化基座模型,通过鼓励探索测试时扩展,提升大模型的复杂推理能力。最后介绍一种简单策略来理解推理扩展,即在无需额外验证的条件下,增加推理预算可直接给模型带来推理性能提升。此外,进一步设计在线强化学习框架WebRL提升大模型在智能体任务中的推理能力,应用于AutoGLM智能体产品等。

魏忠钰

CCF自然语言处理专委会副秘书长,复旦大学大数据学院副教授

复旦大学大数据学院副教授、数据智能与社会计算(Fudan DISC)课题组负责人,CCF自然语言处理专委会副秘书长。主要研究领域包括多模态大模型和社会模拟,发表论文100余篇。代表成果包括多模态图文混合推理大模型Volcano和社会模拟的世界模型SocioVerse。曾获得上海市启明星计划,CCF自然语言处理专委会新锐学者奖。

报告题目:《多模态大模型的图文混合推理方法》

报告摘要:多模态场景中的复杂任务往往涉及混合模态信息的联合分析和推理,近期OpenAI的o4呈现的视觉思考能力,进一步佐证了在推理过程中引入视觉信息的重要性。受启发于此,我们尝试在多模态大模型的推理过程中构建视觉文本信息混合的推理逻辑链条,帮助模型定位和分析关键的局部视觉区域,并结合多模态信息进行分析与思考。鉴于混合推理场景的高质量数据稀缺,难以有效引导基础模型获得混合模态推理的泛化能力,我们进一步探索类R1的强化学习方法进行其能力边界的拓展,提升模型在开放式环境中的适应性与推理精度。

陈思衡

上海交通大学长聘轨副教授,上海人工智能实验室双聘青年科学家

上海交通大学人工智能学院长聘轨副教授,美国卡内基梅隆大学(CMU)博士,入选国家级人才计划青年项目,曾就职于美国UBER ATG自动驾驶部门。承担了基金委原创探索项目、面上项目,科技部人工智能2030重大项目课题等科研项目。研究聚焦多智能体系统,于Nature Communications, Nature Computational Science, T-PAMI, NeurIPS, ICML, ICLR, CVPR等期刊和会议上发表百余篇论文,引用一万余次。曾获得IEEE信号处理协会最佳青年作者论文奖,ASME结构检测协会最佳论文Runner-Up奖等荣誉。

报告题目:《大模型多智能体的自演进》

报告摘要:群体智能的自演进是指多个智能体通过协作与学习,不断自我优化,以提升整体系统的性能。本次分享中,我们将从模型训练和推理计算两个方面探讨大模型驱动的多智能体自演进。模型训练方面,我们提出了多智能体社会模拟器MATRIX,产生高质量合成数据。仅用2万条合成数据,使得Llama-3-8B-Base综合性能超过Llama-3-8B-Instruct(Meta使用了超了1000万条数据)。推理计算方面,我们提出了多智能体工作流自进化范式EvoMAC,采用全新的文本反向传播机制,实现了项目级软件开发能力的持续提升。最后,我们将介绍新一代多智能体框架MASLab,为多智能体科研提供统一代码基座。

嘉宾

陈旭

中国人民大学高瓴人工智能学院准聘副教授

中国人民大学高瓴人工智能学院准聘副教授。主要研究方向为大语言模型、强化学习、推荐系统和因果推断等,在TheWebConf、SIGIR、KDD、ICML、NeurIPS、ICLR、AIJ等会议/期刊发表论文100余篇,谷歌引用8000余次,荣获著名国际会议的最佳论文奖或提名五项,荣获CCF自然科学二等奖(2/2)、CIPS钱伟长青年创新奖、ACM-北京新星奖和CAAI社会计算青年学者新星奖等荣誉。

会议介绍

由CCF主办的YEF2025将于2025年5月22-24日在珠海&横琴召开。此次大会由CCF会士、副理事长,华中科技大学教授金海担任大会主席,以“智辟新径”为主题,汇聚了中国计算机领域的青年精英及知名专家,共同探讨科技前沿,开启智慧新篇章。在三天的时间里,预计将组织7场特邀报告、2场大会论坛、1场思想秀、1场优秀大学生学术秀及22场专题论坛。

来源:CCFvoice

相关推荐