摘要:延世大学基础科学研究所 (IBS) 和马克斯·普朗克研究所的研究团队开发了一种新的人工智能 (AI) 技术,使机器视觉更接近人脑处理图像的方式。这种名为Lp-Convolution的方法提高了图像识别系统的准确性和效率,同时减轻了现有 AI 模型的计算负担。
延世大学基础科学研究所 (IBS) 和马克斯·普朗克研究所的研究团队开发了一种新的人工智能 (AI) 技术,使机器视觉更接近人脑处理图像的方式。这种名为 Lp-Convolution 的方法提高了图像识别系统的准确性和效率,同时减轻了现有 AI 模型的计算负担。
Part.01
弥合 CNN 与人脑之间的差距
人脑在复杂场景中识别关键细节的能力非常高效,而传统的人工智能系统却难以复制这种能力。卷积神经网络 (CNN)——目前最广泛使用的图像识别人工智能模型——使用小型方形滤波器来处理图像。虽然这种僵化的方法有效,但它限制了它们在碎片化数据中捕捉更广泛模式的能力。
最近,视觉变换器 (ViT) 通过一次分析整个图像表现出了卓越的性能,但它们需要强大的计算能力和庞大的数据集,这使得它们对于许多实际应用来说并不实用。受到大脑视觉皮层如何通过循环、稀疏连接选择性地处理信息的启发,研究小组寻求一种中间立场:类似大脑的方法能否使 CNN 既高效又强大?
Part.02
Lp-Convolution:一种更智能的观察方式
为了解答这个问题,该团队开发了一种新颖的方法——Lp-Convolution,它使用多变量 p-广义正态分布 (MPND) 来动态重塑 CNN 滤波器。与使用固定方形滤波器的传统 CNN 不同,Lp-Convolution 允许 AI 模型调整其滤波器形状——根据任务水平或垂直拉伸,就像人类大脑选择性地关注相关细节一样。
这项突破解决了人工智能研究中一个长期存在的难题——大核问题。单纯增加 CNN 中的滤波器大小(例如,使用 7×7 或更大的核)通常不会提升性能,尽管会增加更多参数。LP-Convolution 通过引入灵活的、受生物启发的连接模式克服了这一限制。
Part.03
更强大、更智能、更稳健的人工智能
在标准图像分类数据集的测试中,Lp-Convolution 显著提升了 AlexNet 等经典模型和 RepLKNet 等现代架构的准确率。此外,该方法还被证明具有高度的鲁棒性,能够有效应对损坏数据,而损坏数据是现实世界 AI 应用面临的一大挑战。
此外,研究人员发现,当他们的方法中使用的 Lp-masks 类似于高斯分布时,AI 的内部处理模式与生物神经活动非常匹配,这通过与小鼠大脑数据的比较得到了证实。
“我们人类能够在拥挤的场景中快速识别出重要信息,”基础科学研究所认知与社会研究中心主任 C. Justin LEE 博士说道。“我们的 Lp-Convolution 模仿了这种能力,让 AI 能够灵活地关注图像中最相关的部分——就像大脑一样。”
Part.04
从交通到医疗的创新领域应用
与以往依赖于小型僵化滤波器或需要耗费大量资源的变换器的研究不同,Lp-Convolution 提供了一种实用且高效的替代方案。这项创新可能会彻底改变以下领域:
- 自动驾驶,人工智能必须实时快速检测障碍物
- 医学成像,通过突出细微细节来改善基于人工智能的诊断
- 机器人技术,在不断变化的条件下实现更智能、适应性更强的机器视觉
“这项工作对人工智能和神经科学都做出了巨大的贡献,”主任 C. Justin Lee 说道。“通过使人工智能与大脑更紧密地结合,我们释放了 CNN 的新潜力,使其更加智能、适应性更强、更具生物现实性。”展望未来,该团队计划进一步完善这项技术,探索其在解谜(例如数独)和实时图像处理等复杂推理任务中的应用。
新闻来源:Institute for Basic Science
论文参考:https://openreview.net/forum? id=0LSAmFCc4p
来源:启真脑机智能基地