【LLM+KG】利用大模型做开放知识图谱构建及DOGE多模态文档定位

摘要：《Can LLMs be Good Graph Judger for Knowledge Graph Construction?》(https://arxiv.org/pdf/2411.17388)，提出GraphJudger框架来提高KG构建的质量，注意：这

文章转自公众号老刘说NLP

我们继续跟进文档理解以及大模型和知识图谱结合的话题，看两个工作，利用大模型判别能力做开放知识图谱构建以及多模态文档问答的一个有趣任务DOGE。

供各位参考，多思考，多总结，多实践；

一、利用大模型判别能力做开放知识图谱构建

《Can LLMs be Good Graph Judger for Knowledge Graph Construction?》(https://arxiv.org/pdf/2411.17388)，提出GraphJudger框架来提高KG构建的质量，注意：这个工作与之前schema-based的抽取不同，做的事schema-free的抽取，属于openIE的范畴。

如下图所示，其做的更像是一种SPO(subjec,predicate, object)的三元组抽取方式，如下图所示，给定一个文档，然后要去输出文档中存在的三元组集合：

但是，其中的问题在于，现实文档中存在大量信息和噪声，导致提取的信息混乱；LLMs在处理某些领域特定文档时难以准确提取知识；直接使用LLMs作为无监督方法构建KG时容易出现幻觉现象。

例如，下面这个例子：

原始文档显示在左侧，而右侧展示了构建的知识图谱以及一些失败案例。用红色高亮显示的三元组因存在噪声信息而被错误地制定，蓝色高亮的三元组缺乏领域知识，绿色高亮的三元组是LLMs产生幻觉的结果。

那么，如何解决这个问题？也就是提出的GraphJudger框架，核心就是去燥+微调+过滤。

一个是文本去噪，通过迭代方式清理原始文档，消除冗余词汇和相关信息，提取实体和关系。初始迭代中，使用LLM从原始文档中提取实体，然后输入这些实体和原始文档到LLM中生成去噪文档。在后续迭代中，使用前一轮的去噪文档继续提取实体和进一步去噪。但这块容易生成错误。

一个是抽取微调，通过指令调优使开源LLM成为图判断专家，增强其对一般逻辑原则和领域特定知识的理解。通过构建指令数据集并进行监督微调，LLM能够识别出符合逻辑结构和领域知识的三元组。

一个是判断过滤，使用微调后的开源LLM对生成的草图KG中的三元组进行判断，过滤掉错误的三元组，最终提高KG的质量。

二、多模态文档问答的一个有趣任务DOGE

关于多模态文档理解这块，目前已经有UReader、TextMonkey、Kosmos2、Shikra、Ferret、mPLUG-1.5、Kosmos-2.5、Fox等多个模型。我们继续来看这个工作，《DOGE: Towards Versatile Visual Document Grounding and Referring》，主要用于多模态文档中的文本定位和引用，也就是文档VQA，https://arxiv.org/pdf/2411.17125v1，提出了DOGE-Engine和DOGE-Bench，用于评估多模态大型语言模型（MLLMs）在视觉文档理解中的定位和指代能力。

有几个点可以看：

一个是DOGE-Engine，实现方式如下，很常规的多模态理解模型：

一个是多粒度解析数据，包括海报、图表和PDF文档的单词、短语、行、段落和全页级别的文本框标注，其中提到的两个策略可看看：

Figure 3 描述了 DOGE 项目中用于生成精确文本定位数据的两种策略：Re-rendering Strategy（重渲染策略）和 Merge Strategy（合并策略）。这两种策略分别用于海报与图表数据以及 PDF 文档数据的文本定位和解析。下面是对这两种策略的详细解读：

一种是Re-rendering Strategy（重渲染策略），用于海报（poster）和图表（chart）数据，自动获取精确的文本边界框（bounding boxes）。在实现上，首先使用元数据（metaannotation）重新渲染海报或图表，包括文本块及其对应的边界框->修改一个文本块的颜色或透明度属性，并执行重新渲染->由于前两步的渲染结果除了修改的属性外是相同的，通过像素级相减可以得到目标文本块的图像->重复上述步骤，可以为所有文本块获得精确的边界框，并将其标准化以创建最终的注释。

另一种是Merge Strategy（合并策略），用于PDF文档数据，结合MinerU和PyMuPDF的标注，获得全面且具有布局意识的全页解析注释。在实现上，首先，比较有序和无序的文本块，消除重复的文本块。对于截断的文本块，用无序映射中的相应完整块替换，以提高块内的语义完整性->在有序映射中，如果两个连续的块从左上到右下排列，构建一个有序区域。将无序映射中保留的块分类为区域内块和区域外块->将区域内块插入有序区域，并使用列优先顺序依次更新每个有序区域内的块顺序->对于区域外块，将它们插入有序映射。这些块的顺序根据它们与最近有序块的位置关系来确定，遵循列优先顺序。这种方法结合了 MinerU 的布局检测模型和 PyMuPDF 的全面内容提取能力，通过合并策略，可以更好地理解和处理 PDF 文档中的复杂布局和内容。