科学家用知识图谱增强大模型新范式，提升大模型的推理能力和效率

摘要：近年来，大模型在处理复杂任务时展现出强大的推理能力。中国科学技术大学熊辉教授团队与合作者注意到，尽管其在众多实际应用中取得了成功，它们仍存在一些明显的问题：比如知识的滞后性、生成信息的可靠性，以及决策过程的不透明性。

近年来，大模型在处理复杂任务时展现出强大的推理能力。中国科学技术大学熊辉教授团队与合作者注意到，尽管其在众多实际应用中取得了成功，它们仍存在一些明显的问题：比如知识的滞后性、生成信息的可靠性，以及决策过程的不透明性。

相比之下，作为一种大规模结构化的知识库，知识图谱则可以提供大量的显式和可编辑的现实世界知识的描述，这些特性使得知识图谱能够弥补大模型的缺点。

尽管目前的知识图谱增强大模型范式能够为更全面地融合知识图谱和大模型二者的知识提供机会，但是在面临许多复杂问题时，可能仍然无法正确规划推理路径的探索。

图丨陈力以（来源：陈力以）

日前，在熊辉教授的带领和指导下，陈力以博士和课题组其他成员共同完成了以《图上规划：知识图谱上大语言模型的自我纠正自适应规划》（Plan-on-Graph: Self-Correcting Adaptive Planning of Large Language Model on Knowledge Graphs）为题的相关论文，该论文已被人工智能领域顶级会议神经信息处理系统大会（NeurIPS 2024, the 38th Annual Conference on Neural Information Processing Systems）接收，并公开在预印本网站 arXiv 上 [1]。

中国科学技术大学陈力以博士是第一作者，熊辉教授担任通讯作者。

图丨相关论文（来源：NeurIPS）

克服现有知识图谱增强大模型范式的局限性

为了更深入地理解现有大模型范式的局限性，该团队挑选了一些典型的推理错误的案例，并进行了定量和定性的分析。该课题组通过这些分析发现，现有的知识图谱增强大模型范式的局限性主要在以下几个方面：

探索广度受限。现有范式通常设定固定的探索广度，这导致不能在面对复杂问题时对探索范围调整，使其探索的灵活性和正确性受限。

没有自纠正机制。现有范式中的路径探索是单向的，没有对错误路径进行自我纠正的能力，容易导致推理失败。

大模型“失忆”。在需要满足多个条件的情况下，大模型容易出现“失忆”现象，无法同时满足多个条件的答案。

因此，复杂问题的推理可能严重依赖于自适应探索和错误推理路径的自我纠正。

图丨上图反映了现有的知识图谱增强大模型范式的局限性。以问题“泰勒·斯威夫特哪首歌曾获得过全美音乐奖？”为例，首先，受限于固定的探索宽度，模型只能选取 3 首歌曲，忽略了正确答案《Blank Space》。另外由于探索方向不可逆，即使这 3 首歌都是错误的，模型也不能自己进行修正。到最后一步，模型“失忆”，忽略了问题中的条件“获得过全美音乐奖”，而得出了错误的结论《Love Story》（来源：NeurIPS）

针对上述问题，该团队设计了一种新的自我纠正自适应规划的知识图谱增强大模型范式，称为 Plan-on-Graph（PoG），它能够自适应地规划图上游走的探索范围，并且具备纠正错误推理路径的能力。

通过以下的具体设计，有效缓解了上述问题造成的瓶颈：

自适应探索范围。让大模型能够根据实际情况动态调整探索范围的广度，而不是固定在一个预设的值上。

反思机制。设计一个反思机制，使大模型能够根据已有信息判断是否需要进行纠正，并在哪个步骤进行纠正。

引导和记忆机制。引入引导和记忆机制，帮助大模型记住所有的条件和历史信息，避免在推理过程中遗忘关键信息。

该研究首次将自我纠正机制和自适应知识图谱探索设计到知识图谱增强大模型中，这一新型范式不仅提升了知识图谱与大模型结合的灵活性和准确性，还极大地优化了信息检索和决策制定的效率。

PoG 的自适应自我纠正规划机制

在具体的模型设计上，PoG 首先将问题分解为多个子目标，将其作为规划探索的指导。然后，PoG 会重复自适应地探索推理路径，以访问相关的知识图谱数据，更新记忆以提供动态证据进行反思，并评估是否需要自我纠正推理路径，这一过程会持续进行直到推理出答案。

在 PoG 中，研究人员设计了三种机制以实现自适应的自我纠正规划：

1.Guidance（引导）：为了更好地利用问题中的条件引导自适应探索，他们利用大模型将问题分解为包含条件的子目标，从而有助于灵活地识别与每个条件相关的路径。

2.Memory（记忆）：存储在记忆中的信息提供了历史检索和推理信息以供反思。他们记录并更新子图，为大模型提供所有检索到的实体，以初始化新的探索和自我纠正路径。

记录推理路径，以保留实体之间的关系，供大模型推理并允许路径纠正。此外，还记录子目标状态，使大模型能够识别每个条件的已知信息，并在反思阶段减轻其遗忘。

3.Reflection（反思）：为了确定是否继续或自我纠正当前的推理路径，他们设计了一种反思机制，利用大模型根据记忆中的信息判断是否考虑其他实体进行新的探索，并决定回溯到哪个实体以进行自我纠正。

并且，研究人员选择了一些公开的真实世界知识图谱问答数据集进行实验，以验证 PoG 的有效性和效率。

图丨 PoG 的推算过程。仍然以问题“泰勒·斯威夫特哪首歌曾获得过全美音乐奖？”为例，首先 PoG 将其拆解为 3 个子目标：1. 找到泰勒·斯威夫特的歌曲；2. 找到这些歌曲获得的奖项；3. 找到获得全美音乐奖的歌曲。然后将这些子目标进行路径探索和反思，在不断自我纠正的过程中得出正确答案（来源：NeurIPS）

实验结果表明，PoG 不仅在性能上能够显著提升，还在效率上取得了重大突破，成为了当前最 SOTA（State-of-the-Art）的知识图谱增强大模型的方法。

在性能方面，对于不同的底层大模型，PoG 均大幅超过最先进的基准，可以实现 11.4% 的性能提升。

并且 PoG 还证明，结合知识图谱能够有效提升大模型性能的价值，提升的程度依靠于方法的设计，最多能够提升 201.4%。

在效率方面，相较于之前的范式，PoG 的自适应探索范围减少了不必要的探索，而有效的纠正避免了错误路径的扩展。不仅在时间上能够实现 4 倍的加速，而且能够节约 26.1% 的 Token 资源消耗。