摘要:结合上面两点内容,今天给大家介绍一篇面向图像描述领域蛮有意思的工作,重新思考轻量化图像描述框架,模仿人类感知图像的习惯,并将模型成功部署在英伟达的 Jetson Nano 边缘设备上,相比 LLaVA-1.5-7B,模型参数减少 93%,推理速度提升 97%。
首个开源的多模态修正图像描述框架
在之前的文章中多次提到多模态大模型目前的一个事实和一条限制:
一个事实:CLIP 的最后一层特征仅提供粗粒度的视觉信息,限制了其在细粒度图像理解等任务中的适用性。
一条限制:多模态模型的落地部署需要轻量化,端侧设备的算力成为模型的最大的限制。
结合上面两点内容,今天给大家介绍一篇面向图像描述领域蛮有意思的工作,重新思考轻量化图像描述框架,模仿人类感知图像的习惯,并将模型成功部署在英伟达的 Jetson Nano 边缘设备上,相比 LLaVA-1.5-7B,模型参数减少 93%,推理速度提升 97%。
注:一个事实和一条限制的分析可见文末的历史文章推荐
多模态大模型的幻觉问题是所有模型都绕不过的一个课题,我个人将其本质归结于文本图像模态的对齐问题,所以我们从图像描述入手定位问题。
我们都知道大模型符合扩散规律,那在图像描述任务上如果将模型轻量化,那么在单句描述或者详细描述任务上效果怎么样?
轻量化模型甚至能得到更优的描述
首先探索了轻量化图像描述,使用 OPT-125M(比 LLaMA-7B 小 56 倍)在 LLaVA 框架中实现一个描述专家。在单句与详细描述任务上评估后发现该轻量模型表现惊人。
事实上,它不仅超越近期提出的小规模描述模型,甚至与 LLaVA-7B、InstructBLIP 等大型多模态通用模型性能相当。
因此得到第一个结论:LLM 的复杂推理能力可能并非图像描述任务的关键。
但是上述模型与其他 MLLM 一样,也存在“视觉盲区”,偶尔会导致语义描述错误。由于上述模型大部分参数集中于视觉编码器,自然的就聚焦于“视觉盲区”作为潜在根因。
如上图所示,检查单次描述时的注意力,发现模型难以聚焦于图像关键区域,而是将注意力分散至整幅图像。同时也发现 CLIP 编码器的视觉表征缺乏足够细节,难以支持准确描述(通过图像重建对比特征细节)。
因此得到第二个结论:注意力机制失效与视觉表征受限。通过初始描述引导注意力聚焦于关键区域,下述图像即可得到预期的效果。第一次为单次前向生成的描述,第二次基于初始描述再次推理的描述。
通过前述的分析,发现事实性图像描述其实并不显著依赖大语言模型的复杂推理能力,轻量级语言模型也能胜任。
但是单次前向描述可能导致专家采用过于宽泛的注意力,从而忽视关键视觉区域。
我们人类首先会整体感知整个场景,然后再瞥向特定区域,注意到更精细的细节。所以本文的轻量化框架模仿了人类的这种习惯,允许图像描述专家修正并改进初始描述。
提出的新颖的图像描述修正框架:Sharp-Eyed Refinement 是首个将多模态修正应用于图像描述的工作,核心组件 DeepLens 联合利用了视觉特征与模型的初始文本输出。这样就能提取出更丰富、更详细的视觉信息来指导最终描述的生成。
同样的,该轻量级框架可以在英伟达的 Jetson Nano 边缘设备上部署,在单句与详细描述任务上评估轻量描述器。相比 LLaVA-1.5-7B,参数量减少 93%,推理速度提升 97%。
但目前主流大模型动辄需要 7B、13B 参数和 A100 显卡支持,根本无法在手机、机器人、无人机等边缘设备上运行。而云端 API 又依赖网络,在灾难救援、野外勘探等场景中并不可靠。
轻量化、本地化、高精度的图像描述模型,成为真正落地的关键。详细内容请查看原论文及源码:
# 论文https://arxiv.org/pdf/2508.21451# 代码https://sites.google.com/view/junha/lightweightcaptioner来源:码科智能一点号1