拿下国际最佳,交大团队打破亚太零记录!

360影视 日韩动漫 2025-03-09 22:03 2

摘要:“最佳论文”颁发给了上海交通大学、清华大学和无问芯穹联合团队提出的视频生成大模型推理IP工作《FlightVGM:Efficient Video Generation Model Inference with Online Sparsification and

日前

国际可重构计算领域顶级会议

FPGA 2025传来喜讯

上海交通大学荣获

“最佳论文”(Best Paper Award)

“名人堂”(Hall of Fame)奖项

两个奖项均打破亚太零记录

“最佳论文”奖项(Best Paper Award)

“名人堂”奖项(Hall of Fame)

“最佳论文”奖项

(Best Paper Award)

“最佳论文”颁发给了上海交通大学、清华大学和无问芯穹联合团队提出的视频生成大模型推理IP工作《FlightVGM:Efficient Video Generation Model Inference with Online Sparsification and Hybrid Precision on FPGAs》,这是FPGA会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作,同时也是亚太国家团队首次获此殊荣

此次获奖的工作首次在FPGA上实现了视频生成模型(Video Generation Models, VGMs)的高效推理,也是该团队继去年在FPGA上加速大语言模型FlightLLM(FPGA’24)后的最新系列工作。与NVIDIA 3090 GPU相比,FlightVGM 在AMD V80 FPGA上实现了1.30倍的性能提升与4.49倍的能效提升(峰值算力差距超过21倍)。

1 研究背景

在视频生成领域,扩散Transformer(DiT)正逐渐成为一种重要的框架。DiT模型通过一个扩散过程生成视频,它将噪声图像逐步恢复为清晰的视频帧,从而展现了强大的生成能力。最初,DiT被提出是为了探索在大规模数据处理中的可扩展性,随着技术的不断发展,DiT的架构也不断被优化,逐步提高了生成视频的质量和分辨率,使得生成的视频更加清晰、精细。尽管如此,这种方法的计算需求非常高,尤其是在生成高分辨率和较长时长的视频时,所需的计算量和内存消耗大幅增加,因此如何提升生成效率并优化计算过程,成为该领域的关键问题之一。

2 核心见解:从视频压缩到视频生成

视频压缩技术(如H.264、H.265)通过离散余弦变换(DCT)等技术,识别并消除视频帧间和帧内的冗余信息,从而实现高达1000倍的压缩率。这一思想的核心在于,视频数据在时间和空间维度上存在大量重复模式,例如相邻帧之间的背景几乎不变,或同一帧内的纹理具有高度相似性。通过检测并跳过这些冗余信息,压缩算法能够显著减少数据量,同时保持视频质量。

FlightVGM创新性地将这一思想引入视频生成模型的加速中。视频生成模型(VGMs)在推理过程中同样表现出显著的时空冗余性。例如,相邻帧之间的Token在语义上高度相似,而同一帧内的不同区域也可能共享相同的视觉特征。然而,现有GPU架构无法充分利用这种冗余性。FPGA虽然具备稀疏计算的优势,但其峰值算力远低于GPU,且其计算单元(例如V80的DSP58)的传统设计无法动态适配混合精度需求,限制了其在视频生成加速中的应用。FlightVGM通过以下三项技术,解决上述挑战:

1、“时间-空间”激活值在线稀疏化方法:基于视频压缩中的相似性检测思想,FlightVGM设计了帧间和帧内的冗余激活稀疏机制。通过余弦相似度计算,动态跳过相似部分计算,显著降低了计算负载。

2、“浮点-定点”混合精度DSP58拓展架构:借鉴视频压缩中的分块处理思想,FlightVGM对视频生成模型的不同模块进行精度分层处理。关键模块(如注意力机制)保留FP16精度,非关键模块(如线性层)量化至INT8,最大化硬件利用率。

3、“动态-静态”自适应调度策略:针对激活值在线稀疏化导致的负载不均衡问题,FlightVGM针对实际工作负载自适应调整不同操作负载的执行顺序,从而提高计算利用率。

3 实验结果

(1)算法评估

与基准模型相比,FlightVGM对于模型精度的影响几乎可以忽略(仅平均损失为0.008),而使用全INT8量化时,平均损失为0.042。同时在实际视频生成效果上,FlightVGM生成的视频与原始模型仍有较好的保持。

(2)性能评估

对于NVIDIA 3090 GPU,在FP16精度下,AMD V80 FPGA的峰值算力差距超过了21倍。然而,基于V80 FPGA实现的FlightVGM仍在性能和能效上超过了GPU。这是因为FlightVGM充分利用了VGM固有的稀疏相似性和混合精度数据分布特性,并通过软硬件协同开辟了“算法-软件-硬件”的全新优化空间并成功在其中找到了一个足够好的解。而GPU由于硬件架构的限制,难以达到相同的加速效果,且缺乏稀疏化和定制化计算数据流优化的支持。

4 应用与展望

2024年,上海交大与无问芯穹、清华的联合工作“FlightLLM——全球首个大语言模型定制推理IP”就曾被FPGA高评价录取,今年则再次以VGM模型定制推理IP“FlightVGM”拿下最佳论文奖,这一系列工作均是通过创新硬件架构提升效率。据悉,相关研究成果现已被集成到无问芯穹自研大模型推理IP LPU(Large-model Processing Unit)之中,并已与合作伙伴开展产业合作验证。

随着VGM计算需求的增长,FlightVGM展示了如何通过FPGA的软硬件协同创新,实现更高能效的文生视频大模型推理。未来,通过探索AIE(AI Engine)+ HBM(High Bandwidth Memory)的全新FPGA架构,FPGA有望为视频生成任务提供更高效的计算支持,成为未来计算平台的重要选择。

关于作者

论文的第一作者刘军是上海交通大学博士生,共同一作曾书霖是清华大学博士后,通讯作者为汪玉和戴国浩。汪玉是IEEE Fellow、清华大学电子工程系教授、系主任和无问芯穹发起人,戴国浩是上海交通大学人工智能学院副教授、无问芯穹联合创始人兼首席科学家。

戴国浩,副教授、博导,主要研究方向为稀疏计算电路与系统。分别于2014年和2019年在清华大学电子工程系获得工学学士和博士学位。在相关领域的国际顶级会议和期刊发表论文80余篇,谷歌学术施引两千余次。担任领域内多个国际会议TPC和期刊审稿人、Ph.D. Forum at DAC 2024联席主席等职务,发表论文曾获FPGA 2025、ASP-DAC 2025、DATE 2024、ASP-DAC 2019最佳论文奖,DATE 2023、DAC 2022、DATE 2018最佳论文奖提名。曾参与指导学生获ACM 2021 SRC 全球第三,MICRO 2020 SRC全球第一。个人荣获2024年算力中国·青年先锋人物奖、2022年WAIC 云帆奖、2021年NeurIPS BIGANN竞赛全球冠军等荣誉。

“名人堂”奖项

(Hall of Fame)

除“最佳论文”奖项外

在FPGA 2025上

上海交通大学

信息与电子工程学院|集成电路学院

长聘教轨助理教授张宸

因其在FPGA领域的开创性研究

荣获2025年“名人堂”奖项

从2017年开始

由TCFPGA组委会投票选拔的历届获奖者中

张宸老师是首个以第一作者身份

获此殊荣的亚太地区学者

大会主席André DeHon(中)为论文第一作者张宸(右)及论文通讯作者、导师Jason Cong(左)颁发奖状

张宸的获奖论文题为Optimizing FPGA-based Accelerator Design for Deep Convolutional Neural Networks,是其在北京大学信息科学技术学院攻读博士学位期间,与丛京生院士、孙广宇副教授、李鹏副研究员等合作完成的重要成果。该论文首次提出了一种全面、系统的优化框架,通过创新的基于循环的分析技术,结合基于屋顶线模型的设计空间建模方法,为人工智能加速器的设计提供了完整而准确的架构优化理论。

该研究不仅推动了FPGA加速器设计的理论发展,更对整个AI硬件架构领域产生了深远影响。据统计,该论文在过去十年间获得了超过2500次引用,其中包括图灵奖得者David Patterson教授在内的60余位各国院士、IEEE/ACM Fellow以及知名院系主任和实验室主任的引用。研究成果被谷歌、英伟达、英特尔、微软、AMD等全球顶尖科技公司广泛采用,对包括谷歌TPU、英伟达GPU在内的多个知名AI处理器的设计产生了重要影响。

“FPGA名人堂”奖项每年评选一次,旨在表彰过去十年内在FPGA和可重构计算领域最具影响力的研究工作。遴选范围涵盖领域几乎所有主流顶级国际会议和期刊论文,包括FPGA、DAC、ICCAD、FPL、FPT、T-CAD、VLSI等。该奖项的评选标准极为严格,不仅要求研究成果具有突出的学术影响力,还需对产业界产生实质性影响。

张宸,上海交通大学长聘教轨助理教授,主要研究方向是人工智能计算架构与芯片系统。曾先后在微软研究院和阿里巴巴平头哥半导体公司任职,深入从事人工智能处理器设计方法的相关研究,参与了多项国内外重要人工智能系统与芯片研制工作。在国际顶级会议和期刊上发表了超过30篇论文,第一作者或通讯作者发表的论文总引用超过4171次,近5年总引用量达3345次。相关成果获得FPGA会议(32年)历史高被引论文第一名、T-CAD 2019 Donald O. Pederson最佳论文奖(中国大陆首个)、ICCAD 2016当年发表论文中引用量第一名、MICRO 2023体系结构年度最佳论文等奖项。曾入选AI 2000世界最有影响力学者,并被评选为Stanford & Elsevier世界前2%高被引科学家(计算机硬件与架构领域)以及上海市海外高层次人才计划。此外,还获得微软研究院院长特别奖、ChinaSys新星奖(全国共2名)等荣誉。

祝贺获奖师生!

编辑:南洋通讯社 吴书畅

责任编辑:陈煜阳

主编:金雪

来源:上海交通大学

相关推荐