摘要:在人工智能全面迈入"大模型时代"的当下,模型推理效率正演进为制约技术产业化的关键瓶颈。面对端侧设备算力约束与云端算力成本激增的双重挑战,需构建从芯片架构到框架设计的全栈式技术突破体系,重点聚焦三大核心挑战:其一,面向AI计算场景的芯片架构创新,如何利用AI模型
在人工智能全面迈入"大模型时代"的当下,模型推理效率正演进为制约技术产业化的关键瓶颈。面对端侧设备算力约束与云端算力成本激增的双重挑战,需构建从芯片架构到框架设计的全栈式技术突破体系,重点聚焦三大核心挑战:其一,面向AI计算场景的芯片架构创新,如何利用AI模型的自回归、扩散生成等特点牵引芯片架构设计?其二,跨平台推理框架的深度优化,怎样构建调度机制,实现从移动终端到云服务器的全场景覆盖?其三,软硬件协同优化范式的革新,如何结合,硬件与软件层的推理框架设计,拓宽AI推理的性能边界?本论坛汇聚优秀学者与产业专家,共同探索大模型推理的效能优化路径。论坛分为上下两场,首先介绍偏重应用、系统的优化方向,然后介绍偏重硬件的优化方向。
论坛安排
顺序主题主讲嘉宾单位1端侧大模型稀疏推理框架PowerInfer糜泽羽上海交通大学2端云一体大模型推理框架设计与应用裴瑞光OPPO3突破内存瓶颈的大模型推理优化李萌北京大学4基于DRAM近存计算架构的大模型推理优化孙广宇北京大学5面向人工智能的处理器芯片架构研究宋卓然上海交通大学论坛主席
李萌
北京大学助理教授、博士生导师、博雅青年学者
北京大学助理教授、博士生导师、博雅青年学者。曾于美国Facebook公司虚拟现实和增强现实实验室任主任研究科学家,主要研究方向为高效、安全的人工智能加速芯片和算法。发表论文90余篇,引用7000余次,获得CCF集成电路Early Career Award、欧洲设计自动化协会杰出博士论文奖等。
共同主席
傅致晖
OPPO研究院AI系统技术线负责人
OPPO研究院AI系统技术线负责人。研究方向包括大模型推理加速、机器学习系统、端云协同计算等。负责基于移动设备的机器学习引擎构建,以及面向大模型的机器学习系统优化技术研究。先后在ACL、MM、AAAI等AI会议上发表多篇学术论文。
论坛讲者
糜泽羽
上海交通大学副教授/博导
上海交通大学副教授/博导,主要研究方向为端侧大模型系统、操作系统、机密虚拟化。主持国家自然科学基金面上项目等国家级科研项目。在SOSP/OSDI/ASPLOS/EuroSys等操作系统顶级会议和期刊发表二十余篇学术论文,受邀担任国际操作系统顶级会议SOSP/ASPLOS等会议PC,开源项目端侧大模型推理系统PowerInfer在GitHub获得8千星标。
报告题目:端侧大模型稀疏推理框架PowerInfer
报告摘要:本报告将介绍 PowerInfer系列研究工作,这是一种针对个人电脑和手机环境的大型语言模型高效推理框架。其设计核心基于大 语言模型推理过程中固有的高局部性特性,具体表现为神经元激活的幂律分布。这种分布表明,在推理过程中,仅有一小部分神经元(即“热神经元”)会持续被激活,而绝大多数神经元(即“冷神经元”)的激活则依赖于特定的输入变化。基于这一观察,PowerInfer设计了一个结合XPU的混合推理引擎和高效的 Flash 存储引擎,从而显著降低了显存需求和数据传输开销。在实际应用中,PowerInfer 分别在个人电脑和手机端实现了 11 倍和27倍的推理速度提升,推动大语言模型在资源受限设备上的应用与发展。
裴瑞光
OPPO研究院AI系统专家
OPPO研究院AI系统专家。主要研究方向为大模型推理优化、分布式计算、端云协同计算。主导分布式机器学习系统、端云协同计算系统研发,主导大模型推理加速算法研究。在ICDCS,WWW等分布式计算,机器学习顶会发表论文多篇。机器学习系统专著《sophon机器学习实战》作者之一。
报告题目:端云一体大模型推理框架设计与应用
报告摘要:近年来大语言模型应用快速增长,端侧部署由于其隐私性,弱网友好等特质成为大模型应用落地的必备场景之一。而大模型在端上推理往往面临算力薄弱,功耗较大的挑战。基于此我们提出了端云一体大模型推理框架,结合云推理和端推理的优势,同时通过云-端多级KV缓存的方法,提升端推理的性能。近期,半自回归模型(如LLaDA)逐渐吸引业界注意,我们也将讨论端云一体大模型推理框架在该类模型上的架构的演进方向和应用趋势。
报告题目:突破内存瓶颈的大模型推理优化
报告摘要:以ChatGPT为代表的大模型快速发展,为自然语言处理、计算机视觉等领域带来了重要的技术革新。然而,依据scaling law,大模型的参数量呈现指数级增长的趋势,造成了严峻的存储和带宽瓶颈。而大模型的自回归解码特性与长文本处理需求则进一步增加了访存带宽需求。在本次报告中,我将介绍课题组在大模型并行解码、自适应调度、长文本压缩等方面的一系列研究,通过模型/加速器协同设计和优化,降低大模型推理的计算和访存开销,提升大模型推理效率。
孙广宇
北京大学集成电路学院长聘副教授
北京大学集成电路学院,长聘副教授。研究领域为领域定制体系架构的设计与自动化,包括高能效计算架构、新型存储架构、DTCO/STCO等。近年来在包括ISCA、MICRO、HPCA、DAC、TCAD在内等高质量会议和期刊上发表论文100余篇, 获最佳论文奖4次、最佳论文提名3次。获得CCF-IEEE CS青年科学家奖、DAC Under-40 Innovators Award等,并入选HPCA“名人堂”、北京智源人工智能研究院“青年科学家”等。
报告题目:基于DRAM近存计算架构的大模型推理优化
报告摘要:DRAM近存计算架构具备高访存带宽、大存储容量的优势,对于大规模神经网络、图计算、推荐系统等应用有较好的加速效果,因此受到了学术界和工业界的广泛关注。本报告首先回顾近期工业界提出的DRAM近存计算芯片,并分析其特点和面临的挑战;然后,进一步介绍如何利用DRAM近存架构来加速端侧大模型推理,并分享我们近期在该方向的一些研究进展,包括架构设计和协同优化等。
宋卓然
上海交通大学计算机学院副教授
上海交通大学计算机学院副教授,主要研究方向为计算机体系结构、AI处理器芯片架构设计、AI性能优化方法研究,曾在体系结构四大顶级会议ISCA、MICRO、ASPLOS、HPCA上发表多篇论文,并连续两年获EDA旗舰会议DATE最佳论文奖。
报告题目:面向人工智能的处理器芯片架构研究
报告摘要:随着半导体产业的发展,摩尔定律逐渐失效,单纯依靠工艺节点的推进和传统体系架构设计,已难以满足 AI 芯片效率与 AI 模型快速迭代之间的适配需求。在高吞吐量、高能效、低开销的 AI 模型推理需求日益迫切的背景下,芯片架构层级的创新设计成为关键突破口。本演讲将重点介绍我们研究团队在图计算与视觉大模型领域的最新研究成果,包括针对 CPU、GPU硬件特性设计的压缩算法,以及构建的专用硬件架构系统,旨在保证推理质量的前提下,提高AI处理器芯片架构的计算效率。
会议介绍
由CCF主办的YEF2025将于2025年5月22-24日在珠海&横琴召开。此次大会由CCF会士、副理事长,华中科技大学教授金海担任大会主席,以“智辟新径”为主题,汇聚了中国计算机领域的青年精英及知名专家,共同探讨科技前沿,开启智慧新篇章。在三天的时间里,预计将组织7场特邀报告、2场大会论坛、1场思想秀、1场优秀大学生学术秀及22场专题论坛。
来源:CCFvoice