摘要:此前,我们介绍过,在李飞飞团队的视频理解基准 HourVideo 中,即便是目前最先进的多模态模型,其测试正确率也只是比随机猜测(20%)略好一点。
在人工智能领域,静态图像识别技术已经取得了长足进展,但对于动态视频场景的理解和处理仍然存在较大不足。
此前,我们介绍过,在李飞飞团队的视频理解基准 HourVideo 中,即便是目前最先进的多模态模型,其测试正确率也只是比随机猜测(20%)略好一点。
现有的 AI 模型难以像人脑那样实时解读和理解连续变化的视觉信息,这主要是因为它们缺乏对时序信息的有效处理能力。
因此,如果想要让 AI 真正地与人类的生活环境和复杂情景相适应,我们或许需要对这一缺陷做出针对性的改进。
近日,美国 Scripps 研究所的科学家团队,从大脑神经元处理视觉信息的机制中得到启发,开发出一种名为 MovieNet 的 AI 模型,在视频理解任务上取得突破。
相关研究以《识别电影编码神经元实现电影识别 AI》(Identification of movie encoding neurons enables movie recognition AI)为题发表在 PNAS(《美国国家科学院院刊》)上 [1]。
图丨相关论文(来源:PNAS)
众所周知,人工智能的进步深受神经科学的启发。例如,经典的卷积神经网络(CNN)借鉴了视觉皮层的层级处理结构,而强化学习算法则模仿了神经回路中奖励机制的工作原理。
而 MovieNet 的核心创新同样在于其受启发于的大脑视觉处理机制。研究团队以非洲爪蟾为模型,重点研究了其顶盖(optic tectum)神经元的感受野(receptive field, RF)。
通过稀疏噪声刺激和逆相关分析,他们记录了神经元对 200 至 600 毫秒电影序列的响应,发现这些神经元能够以一种独特的方式编码时间序列图像。
图丨视顶盖细胞视觉响应特性随时间而变化(来源:PNAS)
研究显示,视觉神经元的响应具有高度选择性。当电影序列按照特定的“最佳顺序”呈现时,神经元的反应最为强烈;而当序列被逆转或随机化时,反应显著减弱。
这种选择性不仅体现在单个神经元的反应中,还通过神经回路中的抑制机制进一步强化。
通过使用 GABA 受体拮抗剂(如哌可毒素),研究团队发现,去除抑制作用后,神经元对逆序刺激的反应显著增强,而对最佳顺序的反应保持不变。
这表明,抑制机制是实现电影序列选择性的重要因素,它通过抑制无关信息的传播,使得神经网络能够聚焦于关键的序列信息。
此外,研究还揭示了神经元在编码动态场景时的时序塑性。当环境中视觉刺激的时序特性发生变化时,神经元的 ON-OFF 响应规律能够通过训练进行调整,从而适应新的环境需求。
这种动态调整能力不仅是自然视觉系统的核心特性,也为 AI 的设计提供了重要启发。
在上述研究的启发下,研究团队模仿神经元时空编码规律开发了 MovieNet 模型。其核心在于其电影编码器的设计,这些编码器基于顶盖神经元的感受野规则,将电影场景压缩为高维特征矩阵。
图丨电影识别 AI 使用时空 RF 的神经元规则作为电影编码器(来源:PNAS)
具体而言,每个编码器模拟了神经元的 ON-OFF 响应规律,能够捕捉电影中亮度的变化以及终止信号。这种设计不仅减少了数据的复杂性,还显著优化了计算效率。
为了进一步提升识别能力,研究团队引入了多重编码器(multiplexed encoders)的概念。他们将多个具有不同感受野特性的编码器组合在一起,以捕捉更广泛的视觉信息。
这些编码器的输出被输入到一个仅包含单层卷积神经网络(CNN)的模型中,从而显著简化了传统 AI 模型的复杂性。
在测试中,MovieNet 对动态场景的分类表现优异,尤其是在分类蝌蚪游泳行为的实验中,其准确率达到了 82.3%,显著超越传统深度学习模型(如 AlexNet 和 GoogLeNet)的 40%-72%,也超过了训练有素的人类观察者 (64.5%)。
图丨基于大脑的 AI 网络可准确分类电影数据及其测试结果(来源:PNAS)
更重要的是,MovieNet 在计算效率方面也具有优势。AlexNet 和 GoogLeNet 等传统深度学习模型的网络架构保护多层处理层和 CNN 结构,需要耗费巨大的计算资源。
即便在无限计算资源和时间的假设下,这些模型可能达到更高的准确率,但这一需求本身可能限制其在实际场景中的应用。
相比之下,MovieNet 通过模仿自然神经元的编码策略,以更高效的方式解决了电影识别问题,体现了基于大脑算法的独特优势。
这种出色的识别能力,使其在医疗领域展现出巨大的应用潜力。例如,MovieNet 能够捕捉蝌蚪在接触不同化学物质时游泳模式的细微变化,这有望对药物筛选技术进行改进。
传统方法往往依赖静态图像的间隔捕获,容易遗漏动态变化中的关键信息。而 MovieNet 能够持续观察和记录动态细胞反应,从而追踪药物测试过程中最微小的变化。
此外,MovieNet 也有望成为一种诊断早期疾病的工具。例如,与帕金森症相关的微小运动变化往往难以被人眼捕捉,而 MovieNet 的高灵敏度算法可以提前标记这些变化,为临床医生提供宝贵的干预时间。
同样地,该技术还可能用于心律不齐等疾病的早期检测,为患者争取更多治疗窗口。这种实时捕捉和分类复杂动态模式的能力,展现了 MovieNet 在医疗诊断中的巨大潜力。
研究团队的首席科学家 Hollis Cline 表示:“MovieNet 的成功不仅证明了生物启发式 AI 的可行性,更重要的是开创了一个新的研究方向。
通过深入理解生物神经系统的工作原理,我们可以开发出更智能、更高效的 AI 系统。这种方法不仅能够提高 AI 的性能, 还能大幅降低能源消耗和计算资源需求。”
展望未来,研究团队计划进一步优化模型架构,提高处理效率,并探索更多应用场景。
他们特别关注医疗诊断领域的应用拓展,以及与其他 AI 技术的融合可能性。同时,团队也将致力于研究更复杂的视觉认知任务,推动 AI 技术在视频理解领域的持续进步。
“从生物学中汲取灵感将继续成为推动人工智能发展的沃土,”Cline 说。“通过设计像生物体一样思考的模型,我们可以达到传统方法无法实现的效率水平。”
参考资料:
1.https://www.pnas.org/doi/10.1073/pnas.2412260121#data-availability
2.https://neurosciencenews.com/brain-ai-video-watching-28218/
运营/排版:何晨龙
来源:DeepTech深科技一点号