摘要:来自UIUC等大学的华人团队,从LLM的基础机制出发,揭示、预测并减少幻觉!通过实验,研究人员揭示了LLM的知识如何相互影响,总结了幻觉的对数线性定律。更可预测、更可控的语言模型正在成为现实。
【新智元导读】 来自UIUC等大学的华人团队,从LLM的基础机制出发,揭示、预测并减少幻觉!通过实验,研究人员揭示了LLM的知识如何相互影响,总结了幻觉的对数线性定律。更可预测、更可控的语言模型正在成为现实。
大语言模型(LLMs)已经彻底改变了AI,但「幻觉」问题如影随从,堪称LLM癌症。LLM会一本正经、义正辞严的捏造事实,「脸不红,心不跳」地说谎。
「幻觉」被普遍认为与训练数据相关。
但在掌握真实训练数据的情况下,为什么LLM还会幻觉?能否提前预测LLM幻觉的发生?
来自美国伊利诺伊大学香槟分校UIUC、哥伦比亚大学、西北大学、斯坦福大学等机构的研究团队,在Arxiv上发布预印本,提出了知识遮蔽定律(The Law of Knowledge Overshadowing):揭示、预测并减少LLM幻觉!
一作张雨季宣布新发现,介绍了LLM幻觉的对数线性定律(Log-Linear Law),分享了最新研究成果:
论文链接:https://arxiv.org/abs/2502.16143
LLM存在一种根本矛盾:
即使使用高质量的训练数据,「幻觉」依旧存在。
要解决这一矛盾,需要对LLL的根本机制有更深入的理解。
为此,本次研究团队提出了新概念:「知识遮蔽」,即模型中的主导知识可以在文本生成过程中,掩盖那些不太突出的知识,从而导致模型编造不准确的细节。
基于这一概念,研究者引入了新的框架来量化事实性幻觉,通过模拟知识遮蔽效应实现。
事实性幻觉的发生率会随着以下3个因素的对数尺度线性增加:(1)知识普及度,(2)知识长度,以及(3)模型大小。
基于这一规律,可以预先量化幻觉现象,甚至在模型训练或推理之前,就能预见幻觉出现。
在遮蔽效应基础之上,研究人员还提出了一种新的解码策略CoDa,以减少幻觉现象,这显著提高了模型在Overshadow(27.9%)、MemoTrap(13.1%)和NQ-Swap(18.3%)测试中的事实准确性。
新研究不仅加深了对幻觉背后基础机制的理解,也为开发更加可预测和可控的语言模型提供了可行的见解。
什么是「LLM幻觉」
LLM的「幻觉」指的是模型生成不真实或非事实陈述的现象。 给出提示「LLM幻觉」,AI自己可以解释什么是LLM幻觉:排名第一的原因就是训练数据问题 。
然而,发现即使在严格控制预训练语料库仅包含事实陈述的情况下,这一问题仍然存在。
具体来说,在使用查询提取知识时,观察到某些知识倾向于掩盖其他相关信息。
这导致模型在推理过程中未能充分考虑被掩盖的知识,从而产生幻觉。
知识遮蔽导致幻觉
「知识遮蔽」(knowledgeovershadowing)是指 更常见的知识会抑制较少出现的知识 ,从而导致幻觉的产生。为了系统地描述知识遮蔽现象,在训练语料库中,研究人员定义了知识对(knowledge pairs)。
具体来说,设 代表一对知识集合。其中,K_A包含m个知识陈述样本ka_i,而K_B包含n个知识陈述样本kb_j。
在K_A和K_B中的每个陈述都通过一个共享的词元集合X_{share}相关联。
在知识集K_A中,每个声明ka_i由一个共享的token序列Xshare、一个唯一的token序列xai和输出Ya组成。
每个声明kai表示为:
其中⊙表示将独特的序列xai插入Xshare中(整合位置可以变化)。
同样,对于不太受欢迎的知识集K_B,用xbj表示独特的token序列,每个声明kbj表述为:
当在推理过程中抑制独特的token序列xbj或xai时,会发生知识遮蔽 。
以xbj被遮蔽为例,当提示Xshare⊙xbj时,模型输出Ya,形成,错误地将事实声明kai和kbj合并成事实幻觉,违背了地面真相 ,如图1所示。 事实幻觉的度量为了测量由知识遮蔽引起的事实幻觉,引入了相对幻觉率R。
当KA是更受欢迎的知识集时,首先量化模型正确记忆来自KA的样本的召回率,记为 。
然后,量化模型在xbj被遮蔽时产生输出的幻觉率HR,记为 。
相对幻觉率R=HR/RR表示不那么受欢迎的知识集由xbj编码的知识被更受欢迎的知识集由xai编码的知识抑制的程度。这个比率表示较不流行的知识(xbj)在多大程度上被较流行的知识(xai)所抑制。
图2:大语言模型(LLMs)在一个具有可控变量S、P和L的合成数据集上从零开始预训练。
在每个子图中,通过改变其中一个变量进行实验,同时保持另外两个变量不变。
LLMs采用自回归(auto-regressive)方式进行训练,并基于整句话计算交叉熵损失(cross-entropyloss)。
关于训练数据的统计信息、训练参数及具体实现细节,请参考原文附录A.1和A.2。
影响变量的公式化由于影响事实幻觉的潜在因素尚未被深入研究,从全局和局部两个角度分析这些变量,重点关注导致「知识遮蔽」(overshadowing)效应的知识占比。
当K_A比K_B更流行时,样本数量满足m>n。
全局视角下,定义相对知识流行度(relative knowledge popularity)为P=m/n,该值表示在整个训练语料库中,某一知识的相对占比。
局部视角下,量化单个句子中知识的权重,定义相对知识长度(relativeknowledgelength)为: 其中,长度(length)是指token的数量。此外,先前研究表明,扩大模型规模可以提升模型性能。因此,研究增加模型规模(S)是否能缓解事实幻觉现象。
何时会出现事实幻觉?
为了研究知识幻觉出现的条件,研究人员在以下三种情境下探测了知识掩盖现象:1、未经过额外训练的开源预训练LLM,
2、从零开始训练一个新的LLM,
3、以及对预训练LLM进行下游任务的微调。
开源LLM中的幻觉 研究人员探测了开源预训练大语言模型Olmo和公开训练语料Dolma,调查了模型幻觉与数据样本频率之间的关系。结果表明, 频率更高的知识倾向于掩盖频率较低的知识 。
这一发现与「高频知识掩盖低频知识」的现象相一致,说明数据中出现频率高的内容容易主导模型的输出,从而导致幻觉。
当向语言模型提出包含多个条件的问题时,有研究报告称,模型的回答往往只部分满足这些条件。 为了验证较流行的知识是否会遮蔽较不流行的知识,设计了一项探测实验。 实验使用了典型查询句式,例如:「告诉我一些著名的」。 其中A和B代表不同的条件,比如性别、种族、职业、性取向、国籍、时间等。 B条件的上下文关系趋势与训练数据中的提及频率一致。 这些研究结果证实了,当知识不平衡满足 m > n 时,就会出现事实性幻觉。 正如下表5所示,模型往往会优先满足条件B,而忽略条件A,导致生成幻觉性回答。 值得注意的是,条件A通常存在一个更占主导地位的对应项。实验设置:为了准确量化幻觉与其影响因素之间的关系,在具有受控变量设置的合成数据集上,研究人员从头开始预训练语言模型。
之所以这样做,是因为现实世界训练数据中,自然语言天生就有变异性和不精确性,无法以完全准确地枚举所有流行/不流行知识的表达形式。
对于每个受控变量实验,从分词器词汇表中,采样词元来构建每个数据集,如表1所示。
研究人员从零开始预训练每个LLM,使用表1中的数据集,共包含19.6亿tokens,并在自回归(auto-regressive)方式下进行训练。
同时控制变量,优化交叉熵损失(cross-entropy loss),直到模型收敛(训练细节见原文附录A.1)。 正如图2所示,事实幻觉(factualhallucination)与知识流行度P、知识长度L和模型规模S呈对数线性关系: 其中α、β、γ、Pc、Lc、Sc为常数。 从图2可以看出, 幻觉率随着相对知识流行度P、相对知识长度L和模型规模S的对数值线性增长 。更高的流行度会导致信息被掩盖 : 高频知识会主导模型的学习,而低频知识则更容易被忽略或错误替代。
更长的文本会导致信息被掩盖 : 在句子内部,如果x_{bj}的token长度短于X_share,它的语义边界会变得不清晰,导致信息被掩盖。
更大模型导致信息被掩盖 :在保持低频知识的清晰语义区分方面,更大的模型的能力有所下降。最终可能导致低频知识在生成过程中被忽略或误用,从而增加幻觉(hallucination)发生的概率。
在微调LLM中验证对数线性规律 在上文中,研究结果基于 预训练 模型。 对数线性规律(log-linear law)是否在 微调LLM 中依然成立? 对数线性规律是否可用作量化LLM产生幻觉的预测工具,尤其是在下游任务微调过程中? 具体来说,研究人员对参数规模从160M到13B的模型进行微调,涵盖多种事实类任务,包括:时间、地点、性别、否定查询(negation queries)、数学和逻辑推理与知识冲突解析(knowledge conflict resolution)。
对于每个任务,研究人员生成:
(1)m组样本,对应 ; (2)n组样本,对应 。 为了严格控制微调后的知识分布,研究人员使用人工构造的事实来生成查询,以减少预训练知识的干扰,从而能够更加精准地评估对数线性规律中的P(知识流行度)和L(知识长度)。 表1展示了多个任务的知识对(k_a,k_b)示例,原文附录A.2提供了更多数据集示例和统计信息。研究人员利用训练LLM在受控的合成数据集上拟合出的对数线性规律(log-linear law),来预测经过微调后的LLM在不同下游任务中的幻觉率。
具体来说,研究人员使用该规律预测幻觉率R,并分析它如何随以下变量变化(见图3): 模型规模S、相对知识流行度P、相对知识长度L。
随后,研究人员比较预测的幻觉率与微调实验中实际观测到的幻觉率之间的差异。
研究人员使用相对预测误差来评估对数线性规律的预测能力,其计算公式如下:
这一方法使研究人员能够量化并预测LLM在不同微调任务下的幻觉现象,为优化和改进模型提供理论依据。 研究人员在图4中可视化了不同任务中幻觉率的预测误差,报告了平均相对预测误差为8.0%。 对于L(知识长度)和P(知识流行度)的误差略高于S(模型规模)。 这是因为尽管微调数据集包含了未见过的事实,但其中仍然存在一些与预训练知识相似的语言表达,这对P和L的量化产生了轻微的影响,而S并未受到影响。 精确量化不准确的真实世界知识的流行度仍然是一个未解决的挑战,研究人员将在未来的工作中进一步探讨。为什么知识会被掩盖?
在实验中观察到的知识掩盖的扩展效应(scaling effects of knowledge overshadowing)现象。
对此,研究团队也提供了理论解释。 记忆—泛化—幻觉 研究人员发现事实幻觉遵循的对数线性规律与记忆(memorization)的对数线性规律惊人地一致。 两者都与样本频率、样本长度和模型规模的对数值呈线性关系。 这一高度一致性促使研究人员深入探讨事实幻觉的本质,并引出了一个关键问题:幻觉是否可以被理解为记忆阶段之后——即泛化(generalization)阶段的必然副产物?
随着模型记忆大量信息并捕捉关联关系,它们会在泛化过程中适应新的分布。
然而,在这一过程中,不占主导地位的知识可能会因过度平滑(smoothing)或信息压缩(compression)而被更常见的模式所掩盖。
与长尾效应不同,知识掩盖并不仅仅是数据不均衡的结果,而是知识表征之间竞争的直接产物 。 即使是并不罕见的知识,也可能在表征空间中被更占主导地位的知识压制。 这种表征竞争机制直接推动了事实幻觉的产生,尤其是在模型从记忆(memorization)过渡到泛化(generalization)处理更复杂的数据分布时,幻觉现象变得更加明显。 泛化误差界解释幻觉 研究人员推导了主流知识的泛化误差界,以理解相对知识流行度P和相对知识长度L的增加如何增强泛化能力,同时加剧LLM的事实幻觉。 在使用自回归(auto-regressive)目标优化的LLM中,下一个token预测任务的泛化误差界可表示为:在受控实验设置下,可以将除了L和m之外的变量视为常数。
在这里,h(L)表示一个与L正相关的函数值,μ反映了输入变化的敏感度,即相对知识长度L对泛化能力的影响。 此外m代表K_A的样本数量。
理论上,更低的误差下界意味着更强的泛化能力 。
当L增加(即知识的相对长度增长)或m增加(即知识的相对流行度提高)时,二者都会降低泛化误差界,也就是说说,提高泛化能力。
但与此同时,这也与幻觉率的上升趋势一致,即 泛化能力增强的同时,模型更容易产生事实幻觉(hallucination) 。
更多详细的理论推导可在原文附录A.5中查看。
如何消除幻觉?
为了减少事实幻觉(factualhallucinations),在幻觉影响模型预测之前,主动识别被掩盖的知识。 识别被掩盖的知识在语言模型(LLM)中,给定输入token序列X,模型会生成续写token序列Y,其中X和Y都由词汇表V中的token组成。
如果X中的某些token x_b被掩盖(overshadowed),模型可能会生成幻觉输出(hallucinated output)。
比如说,输入X是下列内容:
「Who is a famous African researcher in machine learning area?」
如果「African」(x_b)被「machine learning」掩盖,则模型可能会错误地输出:Y=「Yoshua Bengio」
此时,模型忽略了「African」这一约束,导致幻觉生成。解决方案:研究人员提出CoDA(对比解码),用于放大被掩盖的知识,从而减少幻觉现象的发生。
检测被掩盖的Token为了识别被掩盖的token x_b,研究人员采用逐步屏蔽(masking)的方法,即依次屏蔽X中的x_b,形成X',直到找到被掩盖的token(具体的x_b选择方法见原文附录A.4)。
如果x_b被掩盖,则模型的条件概率会发生退化:
换句话说,模型的输出会从Y_b偏向Y_a,导致信息丢失或幻觉。
为了确保研究人员能够量化输出候选yi∈P(Y|X)和P(Y|X′)的足够语义,采用自适应合理性约束,保留满足以下条件的token:
,其中α=0.01是一个超参数,Υ是一个全局变量,表示所有yi候选中的最大概率。
然后,R-PMI在 上进行量化:本质上,负的R-PMI值表示token yi更倾向于与X′相关联,且没有受到遮蔽信息的影响。
因此,为了量化P(Y|X)在多大程度上推广到P(Y|X),需要找到下列最小值:
此外,值得注意的是,尽管某些token被X′遮蔽,但仍有一些token逃脱了这种遮蔽效应,定义为Vesc:
这些逃脱的token展示了消除幻觉的潜力。
研究人员提出了一个逃避奖励机制(ERM),该机制通过向负R-PMI的总和添加正奖励来评估逃避效应是否超过了遮蔽效应。
将所有具有负R-PMI的yi表示为yi∈S,ERM的计算方式如下:
这里的计算是为了使ERM与RPMI保持平衡,两者具有相似的分母p(yj|X′),在方程7中表示来自X′的最小偏差。
然后,研究人员可以通过以下公式计算遮蔽知识指标:Indicator=R-PMI总和+ERM。
指标值为负表示进行了适当的泛化而没有遮蔽其他知识,而正值则表示过度泛化并遮蔽了token xb。
接着,研究人员可以在定位被遮蔽的token后,预测潜在的幻觉, 表8 显示了 准确率。
研究人员提出了一种方法,用于提升被遮掩的知识。
一旦识别出编码被遮掩知识的token xb,研究人员就会对这些token采用对比解编码,以减少X′的影响并突出X的重要性。
具体来说,为了降低X′的偏差,研究人员对每个yi∈Vtop(X)∩Vtop(X′)减去X′的先验偏差P(yi|X′),计算方式如下:
同样,对于每个yi∈Vesc,研究人员进行以下操作:
在这里,右式后一项表示来自普遍知识的最小先验偏差。
这种减法旨在平衡yi∈Vesc和yi/∈Vesc之间的偏差调整,确保对两者进行成比例的调整。
然后研究人员通过以下方式预测最优输出y^{∗}_{i}
到目前为止,研究人员已经减少了由X′编码的普遍知识带来的遮掩效应,然后放大了编码有意义被遮掩知识的逃避token,以减少幻觉。
实验结果在Overshadow、MemoTrap和NQ-Swap任务上,CoDA分别将贪心解码的性能提升了27.9%、13.1%和18.3%。
增强推理能力的基线方法在处理因知识遮蔽(knowledge overshadowing)导致的幻觉现象时表现不佳。
而基于自一致性(self-consistency)的方法则表现出不稳定性,甚至可能出现性能下降,这可能是由于强化了来自流行知识的偏差。
图5展示了对CoDA受两个因素P和L影响的定量分析。
随着知识的过度泛化,提取有价值信息变得越来越困难,因为有用的知识表示受到了抑制。
图5:关于流行度P和长度L对CoDA在消除知识遮蔽方面表现的定量分析。
一作简介
来源:科技列车