实体对齐技术是知识图谱研究中的重要方向,旨在将不同知识图谱中指向同一现实对象的不同实体进行连接,从而实现知识图谱的扩充。目前主流的研究思路有两种:一是针对知识图谱的结构特征进行分析,二是针对知识图谱的元素信息(实体名、关系名、属性名等)进行分析。然而,尚未有模型同时针对结构特征与元素信息进行分析。本文提出了一种实体对齐模型EAFF(entity alignment based on feature fusion),该模型从图结构与元素信息两个角度,对知识图谱进行特征分析。实验结果显示,EAFF取得了相对较好的成绩,优于目前的主流算法。摘要:实体对齐技术是知识图谱研究中的重要方向,旨在将不同知识图谱中指向同一现实对象的不同实体进行连接,从而实现知识图谱的扩充。目前主流的研究思路有两种:一是针对知识图谱的结构特征进行分析,二是针对知识图谱的元素信息(实体名、关系名、属性名等)进行分析。然而,尚未有模
知识图谱领域的相关研究受到广泛关注,许多机构都建立了不同的知识图谱,如DBpedia、YAGO、ConceptNet、BabelNet和Wikidata。随着大量知识图谱的建立,如何将这些知识图谱进行融合成为重要问题,实体对齐技术也受到越来越广泛的关注。实体对齐技术是知识融合技术的重要组成部分,旨在将不同知识图谱中,指向同一对象的不同实体进行连接。在具体的应用场景中,由人工从待对齐图谱中筛选出部分对齐实体作为种子实体对,并利用算法自动根据种子实体对从知识图谱中发现未被人工标注的对齐实体对。
1 研究现状
目前,实体对齐技术有两种主流研究方向。一是利用非语义信息的方法:传统的基于翻译的模型以及基于图神经网络的系列模型。二是利用图谱元素的语义信息,仿照人类的认知逻辑,对图谱中的对齐实体进行学习的方法:基于词嵌入的方法以及基于Bert的方法。
1.1 基于非语义信息的实体对齐模型
基于非语义信息的实体对齐模型主要有两种类型:翻译模型、图神经网络的结构嵌入模型。
1)翻译模型:最经典的是TransE模型,将关系三元组{h,r,t}嵌入使h+r=t,后续还有TransH、TransR和TransA等模型改进。
2)图神经网络的结构嵌入模型:如EASAE通过累加相邻实体和关系嵌入更新实体嵌入,RSNs通过生成额外三元组并利用VR-GCN方法对齐,还有HGCN、MuGNN、RREA和NMN等模型,分别从不同角度改进实体对齐方法。
1.2 基于语义信息的实体对齐模型
基于语义信息的模型也可以分为两种:基于普通词嵌入的方法及基于Bert的方法。
1)基于普通词嵌入的方法:包括MultiKE基于实体名称、图形结构和实体属性嵌入实体,CEAFF融合多种信息用于表示学习。
2)基于Bert的方法:是目前效果较好的一类方法,如HMAN和BERT-INT使用多语言Bert弥补跨语言知识图差距,HMAN结合多方面信息学习实体嵌入,BERT-INT利用实体描述边信息但忽略结构信息。
然而,目前缺乏一种能够综合运用知识图谱图结构与元素信息的模型。针对这一现状,本文设计了一种综合图结构与元素信息的实体对齐模型EAFF。
2 问题定义
本研究将知识图谱表示为G={E,R,A,V},E、R、A、V分别表示实体、关系、属性和值的集合。图谱由关系三元组{h,r,t}和属性三元组{h,a,v}构成,关系三元组{h,r,t}中h表示头实体,t表示尾实体,r表示关系,h,t∈E,r∈R;属性三元组{h,a,v}中h表示实体,a表示属性,v表示属性值,h∈E,a∈A,v∈V。
给定两个知识图谱G1和G2,还有一组已经完成对齐的种子实体对I={(ei,e')|ei∈G1,ei'∈G2,i∈(0,n)}。目的是让模型对种子实体对进行学习,从结构特征以及元素信息两个角度分析出对齐实体的特点,使模型能够针对图谱G1中的任意实体,找出对应G2中的候选实体。3 模型架构
3.1 总体架构
如图1所示,模型EAFF可以分为5个部分,分别是:输入模块、结构学习模块、元素信息学习模块、特征融合模块及输出模块。
图1 EAFF总体架构图
输入模块为整个模型提供数据,数据分别流向结构学习模块和元素信息学习模块。结构学习模块利用GAT+GCN学习结构,经邻域对齐与嵌入重置实现实体对齐学习;元素信息学习模块学习种子实体对的元素信息。特征融合模块用委员会机制和排序思想融合两种特征,输出模块给出候选对齐实体集。
3.2 结构学习模块
1)结构嵌入模块:结构嵌入模块的目的是学习对齐实体的结构嵌入,该模块本质上是3层图神经网络结合而成:1层GAT加2层GCN。利用highway网络减少噪声干扰,公式(1)-(4)分别为GAT和GCN层的数学表达式。
2)筛选模块:包括邻域筛选模块和候选实体筛选模块。邻域筛选模块基于注意力机制选择部分邻居作为一跳邻域,公式(5)为其数学表达式;候选实体筛选模块同样基于注意力机制筛选出与中心实体图嵌入更相关的候选实体,公式(6)为其数学表达式。
3)邻域嵌入模块:通过中心实体与候选实体邻域相互作用得到邻域对齐嵌入,公式(7)-(10)为其数学表达,其中涉及注意力权重计算、邻域矫正嵌入和利用门控神经网络聚合等操作。
4)嵌入重置模块:将门控神经网络聚合的邻域对齐嵌入与结构嵌入模块的图嵌入结合,公式(11)为拼接操作,最后通过公式(12)计算实体与候选实体的曼哈顿距离选择候选实体。
3.3 元素信息学习模块
针对知识图谱元素信息(实体名、邻居名、关系名和属性名)学习,使用基于Bert训练的词向量。元素信息学习模块分为4部分,分别是实体名融合模块、邻居名融合模块、关系名融合模块和属性名融合模块。模块架构如图2所示。
图2 元素信息学习模块架构图
1)实体名融合模块:将待对齐实体的实体名词向量进行融合,计算余弦相似度。
2)邻居名融合模块:对齐实体的邻居的实体名称进行融合,得到邻居聚集矩阵,并进行双向融合操作。
3)关系名融合模块与属性名融合模块:与邻居名融合模块的操作一致,分别将关系名和属性名进行融合。将四种信息的融合结果拼接,得到对齐实体的总相似度,表示对齐概率。
3.4 特征融合模块
由于结构学习模块和元素信息嵌入模块得到的候选实体的评价指标计算逻辑不同,不能直接计算相似度。因此,设计了一个排序算法,将两组候选实体进行融合。
算法思路如下:针对每个实体,结构学习模块和元素信息嵌入模块分别选出10个候选实体。然后,设计一个排序算法,将两组候选实体集合并,并基于它们的对齐概率进行排序,得到最终的候选实体集。值得注意的是,结构学习模块和元素信息模块的损失函数是一致的。
4 实验设计与结果分析
4.1 实验设置与参数确定
实验使用的语料是跨语言知识库DBP15k,该语料可分为三组:ZH-EN、JA-EN、FR-EN。选择Hits@1和Hits@10作为评价指标,设置结构学习模块和元素信息学习模块参数,硬件设施为Intel Core i7-11800H、RTX3060及Google Colab辅助计算,语言基于Python在Windows环境下运行。
4.2 基线模型对比实验
为了验证本模型EAFF相较于之前的工作的提升效果,实验结果如表1所示。
表1 各基线模型效用对比
结果显示EAFF在多数情况下优于基线模型,指标平均值更高,证明其在实体对齐研究中的良好效果及图结构与元素信息融合的促进作用。
4.3 总体结构消融实验
分三组实验,Lab1消融图学习结构,Lab2消融元素信息学习结构,Lab3为原始对照组。3组实验结果如表2所示。
表2 总体结构消融实验
结果表明,在EAFF中图结构和元素信息学习模块对实体对齐均有促进作用,且当元素信息结构将实体对齐达到一个相对较高的程度时,图结构对于元素信息结构的补充作用将大大降低。
4.4 结构嵌入模块网络结构效用实验
本实验测试不同网络结构对结构学习模块获取候选实体准确性的影响。结果证明1层GAT加2层GCN的网络结构效果最优,网络层数非越深越好,GCN与GAT结合使用能更好学习知识图谱图结构。
5 结论
本文设计了一种基于图结构与元素信息融合的实体对齐模型,该模型通过图结构学习模块和元素信息学习模块对知识图谱的图结构与元素信息进行学习,并利用基于排序思想的算法对学习到的特征进行融合。基线实验证明了本模型相较于此前研究的提升,消融实验证明了本模型中的各个组件对实验效果的必要性。通过进一步的分析可以确定,未来实体对齐领域的研究将聚焦于图结构学习与元素信息学习的融合。
作者简介:马浩然,中国电子科技集团公司第三十二研究所,硕士研究生,研究方向为知识图谱、自然语言处理;王金华(通信作者),中国电子科技集团公司第三十二研究所,正高级工程师,研究方向为知识图谱、自然语言处理。
论文全文发表于《科技导报》2024年第18期,原标题为《基于图结构与元素信息融合的实体对齐技术》,本文有删减,欢迎订阅查看。
白名单回复后台「转载」
☟
《科技导报》创刊于1980年,中国科协学术会刊,主要刊登科学前沿和技术热点领域突破性的成果报道、权威性的科学评论、引领性的高端综述,发表促进经济社会发展、完善科技管理、优化科研环境、培育科学文化、促进科技创新和科技成果转化的决策咨询建议。常设栏目有院士卷首语、智库观点、科技评论、热点专题、综述、论文、学术聚焦、科学人文等。
《科技导报》微信公众平台创建于2014年,主要刊登《科技导报》期刊内容要点,报道热点科技问题、科技事件、科学人物,打造与纸刊紧密联系又特色鲜明的新媒体平台。
科技导报公众号聚集了数万名专心学术的未来之星和学术大咖,添加编辑微信,让优秀的你有机会与志趣相同的人相遇。
来源:科技导报