摘要:编辑:LRST【导读】研究人员提出了一种新方法,利用类层次结构中的最低公共祖先(LCA)距离来评估深度学习模型的泛化能力,这比传统的准确率指标更有效。此外,通过基于LCA距离的软标签训练,模型在面对分布外数据时的准确率得到了显著提升,同时不影响其在训练数据上的
报道
编辑:LRST【导读】 研究人员提出了一种新方法,利用类层次结构中的最低公共祖先(LCA)距离来评估深度学习模型的泛化能力,这比传统的准确率指标更有效。此外,通过基于LCA距离的软标签训练,模型在面对分布外数据时的准确率得到了显著提升,同时不影响其在训练数据上的性能。
当前许多深度学习分类模型通常在大规模数据中训练以找到足以区分不同类别的特征。 然而,这种方式不可避免地学到伪相关特征(Spurious Correlation),导致训练的分类器在分布偏移(Distribution Shift)下往往会失效。因此,如何在衡量一个训练好的模型的泛化性(Generalization)一直是一个关键问题。现有方法通常利用Accuracy-on-the-Line作为模型泛化性的一个指标,即利用验证集的top-1 accuracy来衡量模型在分布偏移下的性能,该指标在同类模型中较为有效,但面对不同类型的模型(如视觉模型和视觉语言模型)时,往往无法统一而有效地预测泛化性能。
卡内基梅隆大学等机构的研究人员提出了一种新的泛化性评估方法:利用类层次结构(Class Hierarchy)中的最低公共祖先距离(Lowest Common Ancestor Distance, LCA Distance)来判断模型是否学到了更「合理」的特征。
项目地址:https://elvishelvis.github.io/papers/lca/
同时,通过基于LCA距离构建的额外损失函数,可以在OOD测试集上显著提高模型准确率,最高可达6%,且对分布内性能无负面影响。研究还发现,VLM学习到的特征分布更接近人类的语义定义,为解释VLM泛化性更好的现象提供了新的视角。
该研究已被ICML 2024接收为Oral Presentation,论文的第一作者史佳现任Google旗下自动驾驶公司Waymo研究工程师,从事基础模型(Foundation Models)的研究与应用;论文为史佳在卡耐基梅隆大学攻读计算机视觉硕士期间的研究成果;指导教授孔庶现任澳门大学助理教授。
判别式学习:伪相关特征的陷阱
大多数分类模型只关注训练数据中区分不同类别的所有元素(例如背景颜色、有无天空等),而不考虑这些元素是否与类别语义定义一致。导致模型易于依赖训练数据中的伪相关特征,比如:
模型可能将「草地」这一背景特征作为「鸵鸟」类别的主要依据,因为在训练集中鸵鸟常出现于草地背景下。
然而,当测试集中出现的鸵鸟来自非草地背景(如卡通图像或雕塑)时,这些伪相关特征会使模型的泛化性能下降。相比之下,具备更强泛化性的模型会关注诸如「长腿」和「长颈」等更符合人类对鸵鸟语义定义的特征,而非依赖背景等伪相关信息。
LCA距离:衡量泛化性能的新视角
研究人员认为,通过语义层次结构(如WordNet)可更准确衡量模型是否学到语义一致的特征。
LCA距离的思路 LCA距离用于衡量两个类在给定的语义层次结构中的距离。例如,类别「鸵鸟」与「火烈鸟」的语义比「鸵鸟」与「猎豹」的语义距离更接近。 当衡量真实类别与预测类别时,更小的LCA距离意味着即使模型预测错误,也更倾向于预测与真实类别在语义上更为接近的类别,从而体现模型对更符合语义特征的关注。 LCA距离为何有效? LCA距离本质上反映了模型与人类先验知识的对齐程度(alignment),能展示模型学习的特征是否符合人类语义定义。语义更接近的错误预测(即更小的LCA距离)意味着模型学到了更具泛化性的特征。恢复线性关系:与传统ID准确率不同,LCA距离在所有OOD测试集上均表现出更强的线性相关性(如下图右图所示)。例如,在ObjectNet上,LCA距离与OOD性能的相关性达到0.95,而ID准确率仅为0.52。
VLMs的优势:尽管部分VLMs在ID数据上的表现不及VMs,但其LCA距离明显更低,显示出在泛化性上的明显优势。
LCA距离计算:基于隐式层次结构计算类别间的LCA距离。
实验显示,使用VLM生成的隐式层次结构所生成的软标签在提升模型泛化性能方面优于VM。 这说明VLM所学习的特征分布更接近人类语义,从而在OOD场景下表现更为出色。
总结与展望
LCA距离是统一的泛化性指标 只依赖模型预测的类别间LCA距离,不受训练数据分布、模型结构或temperature等参数的影响。因此,它能够统一衡量包括VM和VLM在内的多种模型的泛化能力,并且计算高效。 LCA距离可提升泛化性能 基于LCA距离引入软标签可以引导模型关注与人类定义更为语义一致的特征,从而有效减少对伪相关特征的依赖,并有望在few-shot、预训练(pre-trained)等场景中加速模型收敛。 LCA距离提供了解释VLM泛化性能的新思路 实验显示VLM所学习的特征分布更贴近人类语义定义,帮助解释为何VLM在OOD测试中表现更优。 LCA距离体现了模型与人类先验知识的对齐 本文研究中使用的WordNet可替换为任何包含先验信息的语义层级或知识图谱,这一特性有望应用于其他与对齐(alignment)相关的任务来源:东窗史谈一点号