文本检索

最近邻归一化提升了多模态检索效果

多模态模型借助大规模预训练,在图像描述、视觉问答和跨模态检索等任务中取得了强劲但仍有不足的表现。本文中,我们呈现了一种简便高效的方法——最近邻归一化(NNN),能在无需额外训练的情况下,纠正已训练的对比图像-文本检索模型中的错误。我们发现,在我们测试的所有对比

模态 文本检索 nnn 2024-12-10 06:49  3

LLM2CLIP:使用大语言模型提升CLIP的文本处理,提高长文本理解

在人工智能迅速发展的今天,多模态系统正成为推动视觉语言任务前沿发展的关键。CLIP(对比语言-图像预训练)作为其中的典范,通过将文本和视觉表示对齐到共享的特征空间,为图像-文本检索、分类和分割等任务带来了革命性突破。然而其文本编码器的局限性使其在处理复杂长文本

模型 文本检索 llm2clip 2024-11-21 17:47  2