新加坡国立大学团队通过预测下一事件改进视频理解

360影视 国产动漫 2025-06-03 16:36 3

摘要:在视频理解的人工智能领域,一项重要突破正在改变多模态大型语言模型的学习方式。这项研究来自于新加坡国立大学和新加坡海洋人工智能实验室的联合团队,由Haonan Wang、Hongfu Liu、Xiangyan Liu、Chao Du、Kenji Kawaguch

在视频理解的人工智能领域,一项重要突破正在改变多模态大型语言模型的学习方式。这项研究来自于新加坡国立大学和新加坡海洋人工智能实验室的联合团队,由Haonan Wang、Hongfu Liu、Xiangyan Liu、Chao Du、Kenji Kawaguchi和Ye Wang领导,并由Tianyu Pang担任通讯作者。他们的论文《Fostering Video Reasoning via Next-Event Prediction》于2025年5月28日发表在arXiv预印本平台上,为视频理解领域带来了全新的学习范式。

如果你曾经好奇过电影中的人工智能如何能预测接下来会发生什么,这项研究正在让这种能力成为现实。就像人类能够根据所见情况预测未来可能发生的事件一样,研究团队开发的方法让AI系统也能具备这种时间推理能力。

传统的大型语言模型(LLM)通过预测下一个词语来学习推理能力,但在视频理解领域,研究者们一直在寻找最有效的学习方式。现有的方法如视频问答通常依赖人类或更强大模型的标注,而视频描述则往往将时间推理与空间信息纠缠在一起。新加坡国立大学的研究团队提出了一个简单而优雅的解决方案:让AI学会预测接下来会发生什么。

他们提出的方法称为"下一事件预测"(Next-Event Prediction, NEP),这是一种自监督学习任务,利用未来视频片段作为丰富的信号来培养时间推理能力。想象一下,就像你看了电影的前半部分后猜测后半部分的情节一样,AI模型会接收视频的前半部分作为输入,然后预测后半部分可能发生的事件。这种方法自然地要求模型整合视觉感知与预训练的常识知识,从而丰富其对动态视觉事件的理解。

为了支持这项研究,团队创建了V1-33K数据集,包含约33,000个自动提取的视频片段,涵盖了从简单短片到复杂多步骤场景的各种内容。这种多样性有效地挑战了多模态大型语言模型进行短期和长期时间推理的能力。

此外,研究团队还引入了FutureBench,一个全面的基准测试,用于评估模型在预测未见过的未来事件时的逻辑一致性和因果一致性。实验结果表明,将NEP作为学习任务显著提高了多模态大型语言模型的时间理解和推理能力,同时保持了它们在常规视频任务上的性能。

让我们深入探索这项创新研究的细节,看看它如何为视频人工智能带来革命性的变化。

一、下一事件预测:培养视频推理的新范式

在人工智能领域,大型语言模型通过预测下一个词语来学习复杂的推理能力,这已经成为一种基本的学习任务。那么,当我们想要让多模态大型语言模型具备时间推理能力时,应该采用什么样的学习任务呢?

研究团队通过对比分析发现了现有方法的局限性。传统的视频问答任务往往依赖于关键帧,忽略了视频的时间维度。例如,当模型被问到"防守者是否阻挡了快攻上篮?"时,它可能只关注包含防守动作的单一关键帧,而不是理解整个动作序列。另一方面,视频描述任务虽然考虑了整个视频,但往往将时间线索与空间信息混杂在一起,限制了模型理解动态事件发展的能力。

为了解决这个问题,研究团队提出了"下一事件预测"(NEP)任务。这种方法将每个视频分割为过去和未来的帧:模型接收过去的帧作为输入,然后预测从未来帧中提取的事件摘要。这种设计自然地利用了视频的时间性质,因为未来帧的描述可以作为自监督信号,无需昂贵的人工标注。

想象一下,就像我们看完电影的前半部分后,根据已经发生的情节和我们的常识知识来预测后半部分可能发生的事件。NEP任务要求模型做同样的事情—仅基于观察到的前半部分视频,推断未来可能发生什么。

NEP任务的核心在于它要求模型不仅要进行简单的视觉感知(如物体检测或当前动作识别),还需要推断事件动态并整合视觉理解与常识知识。视觉线索很少明确指示未来结果,这迫使模型利用一般世界知识,如物理学、社会规范和人类行为,来预测合理的下一个事件。

这种推理过程类似于大型语言模型中的"思维链"(Chain-of-Thought)推理。就像数学推理中的中间步骤一样,视频预测需要模型生成基于视觉观察的逻辑推导。例如,如果观察到"一名球员无人防守地接近篮筐",模型可能推断"成功上篮的可能性很高"。

然而,模型还需要考虑更微妙的线索,如研究者给出的例子:在一个篮球比赛视频中,当看到一次防守成功后队伍可能会快速推进(基于常识知识),但如果是第四节比赛最后两分钟(视觉事实),教练可能会叫暂停,或球员可能会放慢节奏以确保谨慎的执行。这种推理需要模型不仅观察到当前状态,还要考虑比赛的上下文和篮球比赛的常识规则。

这种预测未来事件的能力对于各种实际应用至关重要,从自动驾驶汽车预测行人行为,到安全监控系统识别潜在危险情况,再到辅助机器人预测人类意图以更好地协作。通过训练模型预测实际观察到的未来,NEP任务强化了对现实因果模式的学习,即使具体的未来可能有所不同,底层的推理过程也会学习到可泛化的模式。

二、V1-33K:构建预测未来事件的数据集

为了实现下一事件预测任务,研究团队构建了V1-33K数据集,这是一个包含约33,000个视频实例的大规模数据集。每个实例由一个观察到的视频片段与其随后的续集摘要配对,后者作为地面真实目标。

构建这样一个数据集并非易事,团队设计了一个简单而有效的四阶段流水线来自动处理原始视频:

事实转换阶段首先将视觉内容转换为详细的文本描述。研究团队使用视觉-语言模型为每个视频生成全面描述,这确保了文本可以捕捉到视频中的丰富视觉细节,为后续基于文本的推理奠定基础。

在**分析阶段**,这些描述被送入大型语言模型,执行两个关键任务:识别不同场景并确定基于因果关系的最佳分割点。例如,模型会分析像"库里和伊戈达拉带头快攻"和"伊戈达拉接球后突破"这样的场景,确定它们之间的因果关系,并找出一个合适的分割点,使得前半部分提供足够的上下文来预测后续事件。

分割阶段使用确定的最佳分割点将原始视频及其描述分为两部分。第一部分作为模型的输入,包含初始事件,确保视频推理基于已建立的事实。第二部分被保留作为评估模型预测的真实参考。

最后是**推理与批评阶段**,这一阶段特别有趣。研究团队利用文本推理模型(如DeepSeek-R1)处理第一部分的描述,记录其推理过程并生成未来事件的预测。考虑到文本推理有时会引入错误,团队随后使用另一个大型语言模型对推理过程和预测结果进行批判性评估。这种批评微调(CFT)的方法让模型学会批评嘈杂的响应,而不是简单地模仿它们,确保只有稳健的推理能够指导最终模型的训练。

V1-33K数据集的多样性是其另一个重要特点。它包含来自多种来源的视频(如YouTube、YouCook2、NextQA、Charades和ActivityNet),涵盖了广泛的场景:物理事件(如溢出、碰撞、物体交互)、人类互动(如争论导致反应、恶作剧导致惊讶)、体育(如一次配合导致进球或失败)等。这种多样性确保了模型能够学习广泛的时间关系和事件序列。

值得注意的是,所有监督信号都是自动生成的;未来事件的描述本质上是模型为后续片段生成的描述,但通过流水线进行过滤和验证以确保正确性和相关性。这种自动化方法使得数据集能够大规模扩展,而无需昂贵的人工标注。

三、视频指令调优策略与实现

一旦有了V1-33K数据集,研究团队探索了四种不同的视频指令调优策略,每种策略都利用数据集中的特定注释和结构。

监督式微调(SFT)是最直接的方法。模型接收视频的第一部分描述,并预测其续集,通过交叉熵损失进行训练。这一阶段使模型具备基本的预测能力,让它能够直接模仿真实未来事件的描述。

批评微调(CFT)是一种更复杂的策略,模型学习批评嘈杂的响应,而不是简单地模仿答案。研究团队利用外部大型语言模型(如GPT-4)生成的批评数据,这些批评识别了模型预测相对于真实续集的优点和错误。在微调过程中,模型学习根据提供的批评来完善有缺陷的续集或评估预测,内化反馈以增强逻辑一致性和预测准确性。

蒸馏微调(Distill)从DeepSeek-R1这一强大的推理模型中提取知识。对于每个样本,DeepSeek-R1生成详细的推理步骤和预测描述。学生模型被微调以重现整个推理序列,采用结构化的推理模式以提高推理和预测准确性。

混合微调(Mix)将上述三种方法在每个训练周期中平均结合。通过交替直接预测、批评引导的完善和显式推理演示,模型整合了各种监督信号。这种混合策略促进了稳健学习,平衡了事实准确性、批评反馈整合和结构化推理能力。

在技术实现上,研究团队考虑了类似于最近的多模态大型语言模型Llava的编码器-解码器架构。视觉编码器处理视频帧并产生视觉嵌入序列,语言解码器通过交叉注意力机制接收这些嵌入,然后生成文本。具体来说,对于每个输入视频V≤t,编码器提取帧特征,这些特征通过交叉注意力机制被送入解码器。然后,解码器被提示输出下一事件描述。在训练过程中,解码器被监督以匹配真实事件描述,使用标准的语言建模损失(即下一个标记的交叉熵)。

为了评估多模态大型语言模型在时间推理方面的进展,研究团队引入了FutureBench,这是一个专门设计用于评估模型预测未见过的未来事件的逻辑一致性的基准测试。

FutureBench与NEP目标密切相关,要求模型具备强大的视觉感知和常识推理能力。与传统视频问答基准不同,FutureBench强调面向未观察到的未来目标的时间-因果推理,而不是从可见帧中提取答案。

评估任务被设计为多项选择问答形式。每个视频片段都配有一个明确定义的任务目标或事件结果(称为锚点),这是从完整视频的最终状态派生出来的。这种设计反映了现实世界的叙事通常遵循目标驱动的轨迹,并有助于约束潜在未来事件的搜索空间。给定锚点,模型需要向前和向后推理,推断最终达到指定结果的合理中间步骤或事件。

FutureBench的一个显著特点是其按逻辑跳数(即模型必须预测的推理步骤或缺失事件的数量)结构化划分的任务。这种设计使研究者能够全面评估模型在单跳(1跳)推理任务中的分布内性能,以及在涉及扩展事件序列的更复杂多跳推理中的分布外泛化能力。

具体来说,FutureBench包含两个主要子任务:

未来事件预测—外推要求模型预测一系列未来事件,这些事件在逻辑上将初始观察场景与指定的最终结果连接起来。任务难度通过调整缺失事件的数量来控制,从一个到三个不等: - 1跳:模型预测一个未来事件,直接将观察到的场景与最终场景连接起来,这对应于标准的NEP任务。 - 2跳:模型推断两个连续的未来事件,需要一个短链推理过程,将观察到的场景与最终事件顺序连接起来。 - 3跳:模型预测三个连续的未来事件,通过要求跨越更长时间跨度的更深因果推理,显著增加了任务复杂性。

未来事件预测—插值引入了一个互补挑战,模型必须在给定部分观察到的场景(包括中间锚点事件)的情况下,推断多个非连续的未来事件。与外推不同,这个任务要求模型在片段观察中进行插值,强调在片段观察中对因果连续性和时间连贯性的推理。

为了设计高质量的问题和答案选项,研究团队采用了一个基于大型语言模型的生成流水线,特别是使用GPT-4(仅文本模式)从详细的视频注释中生成问答对。每个视频都附有丰富的文本元数据,包括概要、场景级描述、观察到的场景(初始上下文)和最终场景(目标结果)。研究者使用结构化模板提示GPT-4,模拟人类出题者。

为了确保问题需要真正的推理,提示明确要求实现最终结果,并精心设计以防止快捷解决方案—例如,避免正确答案与问题之间的词汇重叠,或容易被排除的干扰项。此外,干扰选项在视频的主题上下文中是常识上合理的,但在结果轨迹上逻辑不一致,从而增加了任务难度。

所有生成的问答项都经过了人工验证和过滤。被认为过于简单的项目(例如答案可以从单个帧中直接推断,或干扰项不合理)被丢弃。需要小修正的问答对被编辑以确保语义连贯性和与视频叙事的一致性。这种人在环中的审查过程使团队能够在有效利用GPT-4高效扩展数据生成的同时,保持高注释质量。

最终,FutureBench包含总共1056个精心策划的问答对,跨越外推和插值子任务。为了评估基准的质量并强调视觉感知和时间推理的重要性,研究团队在没有任何视觉输入的情况下,仅使用文本版本的问题评估了一个强大的推理模型o4-mini。该模型的准确率为32.0%,表明即使是先进的推理能力也不足以一致地解决任务,这强调了视觉感知在解决FutureBench中未来事件预测的关键作用。

五、实验与结果分析

为了系统地评估下一事件预测作为学习任务的有效性,研究团队在NEP任务上微调了Qwen2.5-VL-7B-Instruct模型,并将其性能与在三种先前指令调优任务上训练的模型进行比较:描述(Captioning)、多选问答(MCQA)和开放式问答(OEQA)。为了公平比较,所有模型都在相同大小的数据集(使用3K样本)上训练。

研究团队通过两组基准测试对模型性能进行了全面评估。首先,他们评估了一般视频理解能力,使用三个广泛使用的基准,这些基准并非专门设计用于测试时间推理:VideoMME(不包括字幕)、MVBench和LongVideoBench验证集。其次,为了检验时间理解和推理能力,他们评估了四个时间聚焦的基准:TemporalBench、TempCompass、SeedBench-R1和他们提出的FutureBench。这些基准挑战模型进行复杂的时间理解和推理。

结果令人印象深刻:在部分观察视频上使用NEP任务训练的模型在时间基准测试上表现出显著改进,相比于在完整观察视频上使用描述、MCQA和OEQA任务训练的模型。值得注意的是,NEP训练的模型在一般基准测试上也保持了竞争性能,这凸显了NEP任务的优越性和兼容性。

这些发现表明,NEP不仅增强了模型对时间序列进行推理的能力,而且在不牺牲其总体理解能力的情况下做到了这一点。NEP作为一种有效的学习信号,促进了视觉感知和时间推理,在一般性能方面几乎没有权衡。

此外,研究团队还研究了三种经典逻辑推理形式:归纳、演绎和溯因在视频指令调优上下文中的相对功效。这些推理范式分别对应于不同的任务形式:视频问答(归纳)、下一事件预测(演绎)和先前事件预测(溯因)。通过使用相同的3K样本训练集微调Qwen2.5-VL-7B-Instruct模型,仅改变任务表述以符合每种推理,研究者发现通过下一事件预测的演绎推理在时间基准测试上产生了显著更大的改进,相比于归纳和溯因推理。

在进一步探索NEP任务上的有效训练策略时,研究团队比较了四种指令调优方法:监督式微调(SFT)、批评微调(CFT)、蒸馏(Distill)和混合调优(Mix)。他们在Qwen2.5-VL-3B-Instruct和Qwen2.5-VL-7B-Instruct上进行了实验,评估每种策略在一般和时间视频基准测试上的性能。

结果表明,简单的SFT在NEP训练上是一种有效策略,在时间基准测试上产生了显著的增益。虽然CFT和Distill也贡献了显著的改进,但它们依赖于来自辅助大型语言模型的额外注释或反馈,使它们相比SFT效率较低。重要的是,Mix策略在时间基准测试上取得了最高的平均性能,有效结合了所有调优方法的优势。

研究团队还研究了训练集大小的影响,通过将SFT和Distill从1K扩展到25K样本,以及将CFT和Mix从1K扩展到10K样本。有趣的是,增加训练数据超过5K样本并不会一致地提高所有调优策略的性能,在某些情况下,甚至会导致一般和时间基准测试上的性能下降。研究者将此归因于大规模单独NEP训练引入的潜在分布偏移,这可能导致模型过拟合或偏离平衡的一般理解。这一观察表明,虽然NEP是一个有价值的训练任务,但需要仔细混合和选择数据规模,以避免收益递减或对模型泛化的不利影响。

最后,研究团队探索了将强化学习(RL)作为增强推理能力的替代学习范式。他们构建了一个专用训练集,包含2,000个多选题问答对,使用与FutureBench相同的流水线生成,但仅限于1跳和2跳外推任务。这使得3跳外推任务被视为分布外(OOD)设置,旨在评估模型对更长、未见过的因果链的泛化能力。同样,插值任务呈现了另一个OOD挑战,要求模型对片段未来上下文进行推理。

实验表明,使用群组相对策略优化(GRPO)训练的模型在分布内任务上表现出强劲的性能改进,并且很好地泛化到OOD任务,包括3跳问题和插值任务。这些结果凸显了RL训练在未来事件预测任务中的有效性。然而,RL训练的模型在一般视频理解基准测试上遭受了非平凡的性能下降,这表明虽然RL训练促进了适合未来事件预测的推理风格,但它可能带来了不利于不需要面向未来预测的任务泛化的归纳偏差。

此外,研究者观察到了奖励黑客的实例,其中使用多选题问答和结果监督的RL训练可能鼓励模型利用表面模式,如答案选项与问题文本之间的词汇相似性,而不是通过整合视觉感知和因果推理进行真正的推理。鉴于这些限制,研究团队强调SFT仍然是NEP训练的一种简单而有效的方法。

六、总结与展望

这项由新加坡国立大学和新加坡海洋人工智能实验室合作完成的研究提出了下一事件预测(NEP),这是一种专门设计用于提高多模态大型语言模型时间推理能力的自监督学习任务。通过将视频分为过去和未来帧,NEP迫使模型预测未见过的未来事件,使模型能够隐式建立因果和叙事动态的稳健内部表示。

为了研究NEP并促进这一领域的研究,研究团队创建了V1-33K,一个包含约33,000个视频实例的大型数据集,涵盖了广泛的真实世界场景和时间复杂性。此外,他们提出了FutureBench,一个全面的基准,用于评估模型生成逻辑连贯和因果一致的未来事件预测的能力。

实验表明,将NEP纳入训练显著提高了多模态大型语言模型的时间推理能力,同时保持了它们在传统视频理解任务上的性能。通过比较不同的视频指令调优策略,研究团队发现监督式微调(SFT)提供了一种简单而有效的方法,而混合策略在利用多种互补监督信号方面表现最佳。

这项研究为视频理解领域开辟了新的方向,弥合了静态视觉描述和时间事件推断之间的差距。通过教导模型不仅描述所见,还推理未见,研究者正在推动我们朝着更全面的视频理解系统迈进,这些系统能够在动态视觉叙事中导航因果关系和时间依赖性。

随着这一领域的发展,未来研究可能会探索更多样化的数据源、改进的注释策略和新颖的架构设计,以进一步增强模型的时间推理能力。此外,将NEP与其他自监督和监督学习任务相结合,可能会产生对动态视觉内容有更深理解的更全面的模型。

这项研究的实际应用十分广泛,从增强视频监控系统预测潜在危险情况,到改进自动驾驶汽车预测行人行为,再到开发能够理解并预测人类意图的更直观的人机交互系统。通过培养真正的时间推理能力,这项工作为更智能、更有用的视频AI系统铺平了道路。

来源:至顶网一点号

相关推荐