摘要:在伸手不见五指的夜晚,自动驾驶汽车和安防摄像头如何才能像白天一样“看”清世界?低光环境下的目标检测一直是计算机视觉领域的棘手难题。来自复旦大学的研究者们带来了一项突破性工作Dark-ISP,提出了一种全新的、为低光检测量身定制的图像处理范式。这项研究已被计算机
作者丨我爱计算机视觉
来源丨我爱计算机视觉
编辑丨极市平台
在伸手不见五指的夜晚,自动驾驶汽车和安防摄像头如何才能像白天一样“看”清世界?低光环境下的目标检测一直是计算机视觉领域的棘手难题。来自复旦大学的研究者们带来了一项突破性工作 Dark-ISP,提出了一种全新的、为低光检测量身定制的图像处理范式。这项研究已被计算机视觉顶级会议 ICCV 2025 接收。
论文标题为《Dark-ISP: Enhancing RAW Image Processing for Low-Light Object Detection》。
传统方法通常先将昏暗的图像“提亮”(增强),再送入检测器,但这种“为人眼服务”的增强方式往往不是对机器最友好的,甚至可能丢失关键信息或引入噪声。而直接利用包含更多原始光照信息的RAW图像,又面临着处理流程复杂、难以与检测任务端到端联合优化的困境。
本文提出的 Dark-ISP 是一个轻量级、可微分的图像信号处理(Image Signal Processing, ISP)插件。它能够直接处理最原始的Bayer RAW数据,并以最终的 检测效果 为优化目标,将RAW到RGB的转换过程变得智能且自适应。通过这种方式,Dark-ISP以极少的参数量,在多个低光检测数据集上实现了对现有方法(包括基于RGB和RAW的方法)的全面超越。
在低光照条件下,图像传感器捕捉到的信号非常微弱,导致图像信噪比低、色彩失真、细节丢失,这对目标检测算法构成了巨大挑战。目前主流的解决思路分为两类:
基于RGB图像的方法:这是最常见的流水线,即“先增强,后检测”。首先使用一个低光图像增强算法(如Retinex-based方法)将黑暗的RGB图像变亮,然后将增强后的图像送入一个标准的目标检测器。这种两阶段方法的弊端在于,两个阶段的目标是不一致的。图像增强的目标是提升 人眼 的主观视觉质量,而这个过程可能会抹去对检测器有用的微弱纹理,或引入不必要的伪影,反而干扰了检测性能。基于RAW图像的方法:相机传感器直接输出的RAW数据,相比于经过相机内部ISP处理并压缩成8-bit的RGB图像,拥有更高的位深(如12-bit或14-bit)和动态范围,保留了更丰富、更原始的场景信息。理论上,从RAW数据出发进行检测具有巨大潜力。然而,现有方法要么使用固定的、不可学习的ISP流程,在转换过程中同样会丢失信息;要么构建了极为复杂的框架,将RAW数据作为辅助信息,难以实现轻量化和端到端的训练。因此,如何设计一个轻量级的、可学习的、并且其优化目标与检测任务完全对齐的RAW图像处理流程,是解决低光检测问题的关键。这正是Dark-ISP所要解决的核心问题。
针对上述痛点,本文提出了一个即插即用的可微分ISP插件—— Dark-ISP。它可以无缝地嵌入到任何检测器的前端,将整个系统从RAW输入到检测框输出的过程完全打通,实现端到端的联合优化。
Dark-ISP的最大创新在于,它没有将ISP视为一个固定的黑盒,而是将其解构为两个可学习的关键组件:一个线性的传感器标定模块和一个非线性的色调映射模块。
线性模块:自适应传感器标定
ISP中的白平衡、色彩空间校正等都属于线性变换。传统ISP使用固定的相机参数矩阵来完成这些操作。而Dark-ISP则让这个过程变得“智能”和“内容感知”。如上图(b)所示,该模块会从输入图像中提取局部和全局特征,并通过注意力机制生成一个 自适应的线性变换矩阵 P' 。这意味着对于不同的图像内容和光照条件,Dark-ISP可以动态地调整白平衡和色彩校正参数,而不仅仅是套用一个固定的模板。这一过程保留了物理先验(变换是线性的),又赋予了模型极大的灵活性。
非线性模块:自适应色调映射
ISP中的伽马校正、色调映射等属于非线性变换,它决定了图像最终的明暗对比和色彩风格。为了使这个复杂过程可学习,研究者们提出了一个巧妙的方案。他们首先定义了一组从1阶到8阶的非凸多项式基函数,如下图所示。这些基函数可以组合成各种形状的复杂曲线。
然后,非线性模块(上图(c))会学习为每个像素预测一组系数,用这些系数来线性组合上述的基函数,从而为每个像素动态地生成一条 专属的色调映射曲线。这种方式使得色调映射能够做到像素级自适应,对图像的不同区域(如高光区和阴影区)施加最合适的增强,最大程度地保留细节。
由于线性和非线性模块是级联的,研究者们提出了一个简单而高效的 自增强(Self-Boost) 正则化机制。其思想是:线性模块的输出(I')本身就应该是一个比原始输入(I)质量更好的中间结果。因此,他们增加了一个损失项 Lsb,鼓励 I' 在特征上接近最终由非线性模块输出的图像 I''。这个机制像一个“内部导师”,促使线性模块提前做好大部分增强工作,让两个模块之间形成良性协作,进一步提升了整体性能。
03 实验结果研究者们在三个不同来源的低光RAW图像数据集(真实的LOD、NOD和合成的SynCOCO)上进行了全面的实验,验证了Dark-ISP的强大性能。
全面超越SOTA如下面的性能对比表所示,无论是在真实世界还是合成数据上,无论对比的是基于RGB的方法还是其他基于RAW的方法,Dark-ISP均取得了当前最先进的(SOTA)结果。例如,在真实的LOD数据集上,Dark-ISP的mAP达到了 70.4,远超其他方法。
性能的提升也直观地体现在了可视化结果上。如下图所示,第一行是各个方法处理后的图像,第二行是检测结果。可以看到,相比于其他方法,Dark-ISP处理后的图像不仅视觉上更清晰、对比度更自然,更重要的是,它有效减少了漏检(missed detections)和误检(false detections),检测框定位也更准确。
在不同相机拍摄的数据集上,Dark-ISP同样展现出了一致的优越性。
详尽的消融实验证明了框架中每个设计的重要性。实验结果表明,将ISP分解为线性和非线性模块、模块的自适应性以及Self-Boost机制,都是最终取得SOTA性能不可或缺的组成部分。
本文为极具挑战的低光目标检测任务提供了一个优雅、高效且有效的解决方案—— Dark-ISP。其核心贡献在于:
提出了一个轻量级、端到端可训练的ISP框架,它将图像处理与高级视觉任务(检测)的目标对齐,而不是仅仅为了提升主观视觉质量。创新地将传统ISP流程解构为可微分的、自适应的线性和非线性模块,并引入Self-Boost机制促进模块间协作,在保留物理先验的同时赋予了模型巨大的灵活性。以极少的参数量实现了SOTA性能,在多个基准上证明了该方法的有效性和泛化性。来源:极市平台