StreamMind:解锁全帧率流媒体视频实时理解新路径

360影视 动漫周边 2025-04-12 17:28 1

摘要:随着基础大模型能力的不断提升,智能助手等真实世界应用对实时视频处理提出了更高的要求。然而,现有方法在高帧率视频流处理上效率低下,难以满足实时感知与响应的需求。近日,微软亚洲研究院联合南京大学提出的 StreamMind 系统,通过事件感知特征提取器(EPFE)

编者按:随着基础大模型能力的不断提升,智能助手等真实世界应用对实时视频处理提出了更高的要求。然而,现有方法在高帧率视频流处理上效率低下,难以满足实时感知与响应的需求。近日,微软亚洲研究院联合南京大学提出的 StreamMind 系统,通过事件感知特征提取器(EPFE)和认知门控(cognition gate)两项核心技术,实现了感知与认知的解耦,突破了高帧率视频处理的瓶颈。StreamMind 不仅在多个基准测试中取得 SOTA 效果,还为智能助手等应用的实时感知与响应提供了全新解决方案,为在真实世界场景中的AI部署带来了新的可能性。

当今基础大模型的能力提升催生了诸多真实世界应用,如智能助手等。这类助手通过智能眼镜等智能设备时刻与用户相伴,持续感知和理解用户所在环境、发生的事件以及用户指令,并据此实时主动地给用户提供帮助。比如导盲助手,在用户要过马路时会输出“稍等现在有车经过”,“现在可以安全通过”等帮助提示。除了依赖大语言模型的世界知识和推理能力,此类智能助手更依赖对持续输入视频流的理解能力,以及可以在相关事件发生时立即发出响应的实时处理速度。

然而,当前技术并不能完成这个目标。因为智能助手需要自主判断什么时刻输出响应,但现有做法如 VideoLLM-online 会将每一视频帧输入大语言模型做判断,如图1(左)所示,这种做法显然开销很大(O(n^3),n 为帧数),远不能匹配 O(n) 的视频帧率。

为解决这一问题,微软亚洲研究院联合南京大学提出了 StreamMind 系统。该系统彻底改变了 AI 助手处理流媒体视频的方式,将流视频的处理能力提高了10倍,即使对 100fps 的游戏视频也能够达到全帧率视频流理解。在 Ego4D、SoccerNet、COIN 等基准的各类评估指标上全面取得 SOTA 效果。

图1:现有流视频处理范式,每帧调用 LLMs(左)和 StreamMind 基于事件门控的感知认知解耦(右)。

StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition

论文链接:

不同于过去利用大模型处理视频流的每一帧,研究员们提出了一个巧妙的核心思想:使用基于事件的门控网络实现对流视频感知与认知的解耦,如图1(右)所示。该思想受人脑以事件(而不是每一帧)为粒度的感知、认知和记忆机制为启发,通过门控网络控制,仅在用户关心的事件发生时才会调用大模型来认知。其中,使感知部分的处理速度与视频帧率匹配,是 StreamMind 能够突破高帧率视频限制的关键。这一思想带来了流视频处理范式的创新。

https://v.youku.com/video?vid=XNjQ3NDM2NzI2OA==

视频1:导盲助手 StreamMind vs 当前 SOTA 方法。当前方法由于开销大,响应发出时刻远落后于事件的发生时刻。而 SteamMind 的响应与事件发生时刻匹配。
https://v.youku.com/video?vid=XNjQ3NDM2Mjc0OA==

视频2:实时足球赛事视频解说
https://v.youku.com/video?vid=XNjQ2Njc2MDM4NA==

视频3:实时做饭指导

StreamMind如何高效而强大地处理流视频?

为实现“使用基于事件的门控网络实现对流视频感知与认知的解耦”这一思想,StreamMind 提出了两个具体的关键技术(如图2所示)。

首先,事件感知特征提取器(Event-Preserving Feature Extractor,EPFE)被设计用于解决当前视频大模型在视频特征提取过程中存在的时间局部性问题。通过利用状态空间模型对长时间物理信号的强拟合性,引入基于状态变换的视频时序特征提取器。该提取器具备强大的事件表征能力,仅需一个感知 token 即可维持对视频流的事件记忆能力。同时,事件级别的感知 token 为后续处理提供了 O(1) 的计算效率,使得模型对视频帧的感知速度能够匹配流视频的生成速度。

认知门控(cognition gate)是另一个关键技术。判断当前事件是否与用户请求相关,是否需要输出响应,是门控网络中一项极具挑战性的任务,因为用户请求往往和视频帧没有直接相关性。例如,当用户提出“帮我修自行车”这样的请求时,系统需要大模型凭借其世界知识来判断当前时刻是否该提醒用户如何操作。但门控网络的输出结果却相对简单,只有 yes/no。

因此,StreamMind 提出了基于浅层大模型迁移的认知门控。该门控网络被赋予了浅层 LLMs 的世界知识,能够进行感知事件与用户需求相关性的判断,从而将视频流感知与用户需求相结合,展现出强大的自主判断能力。同时,轻量化的门控网络结合固定一个 token 的视频特征输入,让流视频的实时感知成为可能,实现了高效的自主判断速度。

图2:StreamMind 系统图。EPFE(蓝色)持续提取视频特征,门控网络(红色)判断是否需要调用大模型。

突破流媒体视频理解的实时性瓶颈

StreamMind 在不同帧率下的处理速度均远超现有方法,即使面对 100fps 的游戏视频流,StreamMind 也能做到全帧率理解。

图3:处理不同帧率下流视频的一秒内容所需时间的对比(A100 GPU)。StreamMind(橘色)可以达到每秒100帧处理速度。

在基准测试中,StreamMind 通过 Ego4D(涵盖全球74个地点、923名参与者录制的3670小时第一视角视频)、SoccerNet(12场欧洲顶级联赛足球比赛视频)和 COIN(11827个跨12领域的教学视频)等数据集,全面评估了在线视频解说、行为预测和任务识别(如换轮胎和炸薯条)等多任务性能。实验结果表明,StreamMind 在各类指标上均取得最佳效果,证明了其在复杂动态场景下的鲁棒性和泛化能力。

表1:Ego4D、SoccerNet 实验

表2:Ego4D LTA 数据集实验

表3:COIN 数据集实验

StreamMind 不仅拓宽了流媒体视频理解的技术边界,更为现有实时视频理解提供了全新思路。通过始终在线的持续视觉感知和认知,StreamMind 能够主动为人类的日常活动提供及时的帮助,赋能智能助手在真实世界场景中的部署与应用。

来源:微软亚洲研究院一点号

相关推荐