最近邻归一化提升了多模态检索效果

摘要:多模态模型借助大规模预训练,在图像描述、视觉问答和跨模态检索等任务中取得了强劲但仍有不足的表现。本文中,我们呈现了一种简便高效的方法——最近邻归一化(NNN),能在无需额外训练的情况下,纠正已训练的对比图像-文本检索模型中的错误。我们发现,在我们测试的所有对比

《Nearest Neighbor Normalization Improves Multimodal Retrieval》

地址:https://arxiv.org/pdf/2410.24114

多模态模型借助大规模预训练,在图像描述、视觉问答和跨模态检索等任务中取得了强劲但仍有不足的表现。本文中,我们呈现了一种简便高效的方法——最近邻归一化(NNN),能在无需额外训练的情况下,纠正已训练的对比图像-文本检索模型中的错误。我们发现,在我们测试的所有对比模型(CLIP、BLIP、ALBEF、SigLIP、BEiT)以及所使用的两个数据集(MS-COCO 和 Flickr30k)中,文本检索和图像检索的指标均有提升。NNN 需要一个参考数据库,但无需针对该数据库进行任何训练,甚至在微调后还能提高模型的检索准确率。

研究问题: 这篇文章要解决的问题是如何在不增加额外训练的情况下,改进对比图像-文本检索模型的性能,特别是减少模型在检索任务中的误差。研究难点: 该问题的研究难点包括:对比嵌入优化的是预训练目标而非下游检索精度,导致学习到的嵌入对检索任务不够理想;许多改进方法需要额外的训练或计算资源,且难以处理特定类型的错误(如性别偏见)。相关工作: 相关工作包括使用对比损失函数进行文本和图像嵌入的学习(Radford et al., 2021; Jia et al., 2021; Zhang et al., 2022),以及一些无训练的方法如QBNorm和DBNorm(Bogolin et al., 2022; Wang et al., 2023)来提高检索精度,但这些方法通常计算复杂度较高。

这篇论文提出了最近邻归一化(NNN)作为解决对比图像-文本检索误差的方法。具体来说,

这篇论文提出了最近邻归一化(NNN)方法,通过预计算偏差修正分数,显著提高了对比多模态检索模型的性能,同时保持了较高的计算效率。NNN不仅适用于有明确参考数据库的场景,还能在不牺牲准确性的前提下减少性别偏见。

来源:宁教授网络空间元宇宙

相关推荐