AIR学术｜西湖大学于开丞：浅谈自主智能——Autolab 的视角

摘要：11月28日下午，由DISCOVER实验室主办的第三十八期AIR青年科学家论坛如期举行。本期活动荣幸第邀请到了西湖大学工学院助理教授于开丞，为AIR的老师和同学们做了题为Large Visual-Centric Models in Society Autola

11月28日下午，由DISCOVER实验室主办的第三十八期AIR青年科学家论坛如期举行。本期活动荣幸第邀请到了西湖大学工学院助理教授于开丞，为AIR的老师和同学们做了题为Large Visual-Centric Models in Society Autolab Perspective的精彩报告，本次活动由清华大学智能产业研究院（AIR）助理教授龚江涛主持。

讲者介绍

于开丞博士，西湖大学工学院博士生导师、助理教授，人工智能企业KMina联合创始人兼首席科学家。于开丞先后于2016年获香港大学工学学士(一等茉誉)，2021年获瑞士洛桑联邦理工大学(EPFL)计算与通讯科学理学博士学位。其研究的主要方向为3D视觉、自动驾驶、自动机器学习等，并先后在因特尔智慧系统实验室(Intel Intelligent Systems Lab),Abacus.AI,阿里巴巴达摩院从事相关领域的研究工作。加入西湖大学后，其负责组建自主智能实验室(AutoLab)并致力于构建基于数据驱动世界模型为核心的的下一代自主智能系统。于开丞博士主持多个国家、省部级、校企合作项目，并作为首席科学家联合创办人工智能企业Kind。

报告内容

在本次报告中，于博士系统地介绍了他的研究方向，首先是在大模型的基础上建立更为先进的智能体系统，涉及探索虚拟与物理世界两个方向的结合，通过模拟和现实场景的互动，推动自动驾驶，具身智能（Embodied AI）在实际应用中的发展。此外，博士还介绍了多模态信息的集成对于连接虚拟与物理世界的重要性。

于博士讨论了自监督与无监督学习在视觉数据处理中的局限性，认为与NLP相比，视觉领域仍需依赖监督学习，获取更多高质量数据是解决视觉问题的关键，故而他的多数工作专注于3D数据生成。

由于3D数据的标注非常复杂，尤其是在运动物体的情况下，传统的手动标注效率低且费时，于博士介绍了团队构建的3D检测模型，通过该模型生成标注框，并将其投影到2D图像中，同时进行跟踪以获取轨迹。核心问题在于，3D检测模型的性能提升可以降低人类标注的需求，从而促进规模扩大。

于博士分享了关于多模态融合的研究动机，强调了在激光雷达数据失败时如何通过鸟瞰视图（BEV）层面融合来提高检测效果。他指出，激光雷达在面对局部失效（如被污物遮挡）时显得脆弱，且激光雷达数据迁移性差，需要构建鲁棒的融合模型。

实验结果显示，采用BEV融合的模型在鲁棒性和检测精度上显著提升，精确度大幅超过了人工反复校对的数据集，证明了多模态融合的有效性。

在数据生成方面，于博士给出了团队的三个研究方向：LiDAR仿真，NeRF联合LiDAR与摄像头数据，以及利用合成数据驱动自动驾驶引擎的自我改进。

在LiDAR仿真方面，于博士说明了传统的激光雷达数据通过叠加激光雷达点生成3D模型，重建方法存在局限性，在生成新视角时会出现误差和人为空洞。生成的点云具有固有的模式，导致生成的点云与现实世界不一致，这限制了其应用效果。

此外，于博士讨论了激光雷达数据生成的传统方法及其局限性。他指出，传统的重建方法在生成新视角时会出现误差和人为空洞，导致生成的点云与现实世界不一致。为了克服这些限制，他提出采用隐式渲染（implicit rendering）技术，借鉴NeRF的思路，将camera model换成lighter model新的建模方式，取得了显著的效果。

在NeRF联合LiDAR部分，于博士指出，在做多视角的多模态融合时，发现单模态（如Camera或LiDAR）生成的场景信息在融合时容易出现模型不一致性，导致最终结果的表现不理想。通过引入几何约束对生成的绝对坐标进行优化，可以显著改善单模态和多模态的建模质量，使其更加干净和一致。在实验中，改进后的多模态融合效果明显优于单模态，进一步验证了多模态融合的优势。