摘要:在上一期里,藉由< 用户、食材和食谱> 三位一体的多层次关联来建立知识图(KG:Knowledge Graph)。并且基于上述KG体通过三个阶段来生成反事实食材组合的图谱,这结合了多阶段的GCN模型和反事实分析来进行推荐和创新。其中,幕后有一个基础组件:Fla
1 认识通用性行业KG
本文引用地址:
1.1 食物FlavorGraph为例
在上一期里,藉由 三位一体的多层次关联来建立知识图(KG:Knowledge Graph)。并且基于上述KG体通过三个阶段来生成反事实食材组合的图谱,这结合了多阶段的GCN模型和反事实分析来进行推荐和创新。其中,幕后有一个基础组件:FlavorGraph。它即是俗称的:行业KG(industry knowledge graph),是由Sony AI团队与韩国高丽大学合作建立的食材配对通用性KG。它的数据量包含1,561 项风味化合物(flavor molecules)和百万笔食谱,形成食物和化合物组成的巨大知识网络,表达食材跟食材或食材与化合物之间的关系,可用来推荐互补的配料,帮助厨师们创新烹饪菜肴。
1.2 以医药DRKG为例
DRKG(Drug Repurposing Knowledge Gaph)是由亚马逊上海AI实验室联合来自亚马逊AI北美、明尼苏达大学、俄亥俄州立大学、湖南大学的研究者,共同构建的大规模药物再利用知识图,其包括属于13种实体类型(entity-types)的97, 238个实体(entities);以及属于107种边缘类型(edge-types)的5,874,261 项连结(links)。如图-1所示。
图1 通用性DRKG
(引自https://github.com/gnn4dr/DRKG)
这DGRK非常有助于新药开发,它可以有效缩短药物研发周期、降低成本和风险。从上述的医疗行业的DRKG,以及饮食行业的FlavorGraph 等,我们来观察它们对于各行业的AI应用,提供了很大的帮助。
2 行业KG+AI模型
将知识图KG和AI模型结合起来,更能够掌握数据之间的关系和准确涵意,提升了推论的准确性,也更发挥AI器学习方法的能力。愈来愈多企业开始使用AI来帮助决策,KG+AI将智能融入数据本身,来为AI提供了更可解释、更准确的背景。进而协助企业人士降低决策风险,提升企业效益。例如,在医药行业,能解释某药物为何对特定疾病有效。而在饮食行业FlavorGraph提供的通用化学风味知识,并由AI模型(如GCN模型)进一步挖掘潜在菜单组合的关系,激发食谱创新。其中,KG与GCN模型的结合过程,如下:
2.1 数据收集与筛选:
收集企业内部数据(如食材采购列表、销售记录),并且清洗数据,去除冗余或不相关的数据。利用行业KG结构化数据提升GCN模型输入数据的质量。
2.2 立KG:
设计节点(node)与边(edge)的类型,例如「食材」、「料理」、「风味」等。并且定义节点特征(feature)和关系(relationship),例如「包含」、「兼容」、「替代」等。
2.3 练GCN模型:
训练GCN来实现模型的目标,包括使用模型来提取知识。例如风味搭配建议、新菜单推荐等。
上述的KG 与GCN 模型是互补的,KG 中的数据是高度结构化的图形数据,包含节点和关系。而GCN能够处理图结构数据,通过聚合邻居节点的信息来学习每个节点的表示。于是,GCN自然适配KG的结构,捕捉节点间复杂的语义关系。这KG是行业数据的「智能连接器」,能有效提升企业AI解决方案的效率与准确性。例如,FlavorGraph与DRKG已经展现灿烂光芒,应用于许多商业场景,让企业采用行业KG,结合自身数据打用造更有竞争力的AI 应。
3 基于通用性行业KG,建构下游企业KG
通用性行业KG(如FlavorGraph)蕴含丰富的行业共享性知识,而企业则针对小领域的特殊需求(如拉面的烹饪过程、食材搭配、口味调配等),建立专用的企业KG( 如FoodKG) 更具针对性。如图-2所示。
图2 行业KG支持下游任务
从行业KG(如FlavorGraph)中提取相关节点与边,补充企业内部数据(如食材采购列表、销售记录)。清洗数据,去除冗余或不相关的数据。有了行业KG提供跨域知识的支持,能有效应用于拉面食材推荐、菜单设计和个性化服务等多种场景。这种模式是一种知识驱动的AI迁移学习,能加速AI针对企业目标的应用。
现在,就来观摩这个「知识驱动AI迁移学习」的第一项事情:将行业FlavorGraph 的节点嵌入(node embedding)作为企业FoodKG + GCN的初始特征(initial features)。将已有的行业知识(如FlavorGraph中的节点嵌入)转化为模型可用的初始特征,等同于利用外部的知识来增强本地图谱的表现。无论是餐饮、医疗、金融、制造还是零售行业,都能从跨域知识的迁移中受益。初始特征来自于成熟的知识图谱,代表了节点间的隐含语义与结构关系。这种初始化能显着提升模型在各行业的学习能力和性能。预先训练的嵌入能轻松应用于新节点或关系的扩展,而无需重新从零训练。不同行业的图谱和嵌入可共享或迁移,促进跨领域应用。例如,将医疗行业的知识嵌入应用于健康食品推荐(如从DRKG迁移到FlavorGraph)。还有,将财务数据图谱嵌入用于供应链风险管理等许多商业情境。
其中,节点嵌入(node embeddings)是将知识图谱中的节点转换为数值向量,亦即压缩节点的高维属性与关系信息到低维空间中,保留图结构的核心语义。然后,于节点嵌入的向量空间,衡量节点之间的相似性。使用行业大KG的节点嵌入作为下游企业小KG+GCN 模型输入,非常有助于提升推荐、分类、或预测任务的准确度。基于KG 的知识来生成节点嵌入的常见技术包刮:DeepWalk、Node2 Vec、GraphSAGE、或GCN 等。
4 实际案例演示:实践下游任务
刚才提到了,每个食材和化学成分都是FlavorGraph图中的节点(node),这些节点之间的边(edge)代表食材和化学成分之间的关联。例如,某些食材共享相似的化学成分或风味特性。然后,FlavorGraph + AI的框架中,其关键任务之一就是:生成食材及其化学成分的节点嵌入。
由于SONY AI团队已经使用FlavorGraph + DeepWalk方法来生成其节点嵌入了。所以在企业KG 的下游任务建构中,就能直接读取它,来做为下游FoodKG + GCN的起始输入节点特征。
4.1 从FlavorGraph读取节点嵌入
现在,就来写一个小Python 程序读取之。
此程序运行时,就会从FlavorGraph取出食材( 如蛋)的节点嵌入,输出如下:
由于FlavorGraph是行业大型KG,其包容众多食材,其节点嵌入向量采取较高的300维度。例如,这程序读取的食材 的嵌入向量含有300个数值。
4.2 建立企业KG
基于FlavorGraph生成的节点嵌入,就能建立下游任务的高质量企业KG。通常企业KG的节点和边的数量,都比上游通用性KG少很多,但是为了接受从上游迁移而来的节点嵌入,所以企业KG的节点特征( 向量) 也必须设定成:300维。现在,就动手撰写一个小Python程序,来建立一个小型FoodKG。它只有200个节点,以及171个边。如下代码:
此程序运行时,就会从nodes_tiny_200.csv和edges_tiny_200.csv两个档案里, 读取200个节点和171个边的数据,建立一个下游的FoodKG。接着,从上游FlavorGraph读取节点嵌入,做为FoodKG的起始节点特征。并且输出如下:
于是,准备好了FoodKG。
4.3 企业KG来训练GCN
接下来,就是引进GCN模型来学习FoodKG的数据。这是一般典型的GCN 训练,于此省略其训练代码。
此程序运行时,就展开训练200 回合,并输出:
这是典型的GCN训练流程。从loss 值的持续下降,这GCN的学习效果是良好的。至此,完成了一项关键任务:利用行业KG提供的预训练嵌入,将KG节点转化为可用于GCN模型的数值特征,并且展开训练。
5 结束语
通用性行业KG可以支持建构各种企业KG,并结合GCN等模型,来支持众多企业AI的下游任务。例如,也能支持建立发酵食材的IngGraph,来实践另一项下游客制化任务。发酵过程中的食材(例如:酸奶、酱油、啤酒、泡菜等)往往会经历复杂的化学反应和微生物活动。在FlavorGraph风味关联图中,这些食材都是图中的节点,而发酵过程中的风味转变、化学物质(如有机酸、酯类、醇类等)的变化则成为边来连接这些节点。GCN模型不仅学习食材间的静态关联,还能捕捉发酵过程中风味的变化。而下游IngGraph这样的系统可以帮助用户实现更精确的食材搭配与风味设计,尤其是针对那些风味组合复杂、需要高度自定义的发酵食材领域。
来源:新浪财经