摘要:柑橘病虫害是柑橘生产中的主要问题之一, 给农业生产者带来了严重的经济损失 。 在传统的农业生产过程中, 许多农业生产者由于缺乏专业的农业知识与技术, 对病虫害的防治常常感到无能为力 。 然而, 随着信息技术的迅速发展, 病虫害防治知识数字化成为可能, 为农业生
柑橘病虫害知识图谱构建研究
基金项目: 国家重点研发计划项目 (2023YFD1600300): 乡村产业共性关键技术研发与集成应用
朱逸航等
柑橘病虫害是柑橘生产中的主要问题之一, 给农业生产者带来了严重的经济损失 。 在传统的农业生产过程中, 许多农业生产者由于缺乏专业的农业知识与技术, 对病虫害的防治常常感到无能为力 。 然而, 随着信息技术的迅速发展, 病虫害防治知识数字化成为可能, 为农业生产者提供了更加便捷和高效的解决方案 。
目前, 传统的知识管理技术在农业领域的应用面临一些共同的缺陷, 包括效率低下、 可扩展性差和适用性不足等问题 。 为了克服这些挑战, 知识图谱作为一种新的知识管理方法应运而生。 知识图谱是一种基于语义关联的知识表示方法, 以图的形式将实体和关系组织起来, 提供了一种更加灵活和直观的知识管理方式 。
然而, 针对柑橘病虫害防治领域, 现有的农业知识图谱对相关实体和关系的刻画还不够细致, 本研究旨在构建一种针对柑橘病虫害的知识图谱, 对柑橘病虫害知识的实体类型和关系种类进行详细定义, 划分了多种实体类别和关系种类, 并运用大语言模型进行实体和关系的提取与去重, 以实现对柑橘病虫害知识的全面管理。
本研究采用了 Neo4j 数据库作为知识图谱的存储和管理工具, 并通过可视化技术将知识图谱呈现给用户。 通过构建柑橘病虫害知识图谱, 为精准病虫害信息查询、 智能辅助诊断等下游任务提供了底层技术支撑, 并为农业生产者提供了更加高效和准确的决策依据 。
本研究将在以下章节中详细介绍柑橘病虫害知识图谱的构建过程和管理方法。 首先, 阐述本研究的目标和方法, 包括对柑橘病虫害知识的实体类型和关系种类进行定义, 并运用大语言模型进行实体和关系的提取与去重 。 然后, 详细描述知识图谱的构建和管理过程, 包括数据收集与预处理、 知识图谱的构建方法以及使用 Neo4j 数据库进行存储和可视化。 在应用与讨论部分, 探讨柑橘病虫害知识图谱在精准病虫害信息查询和智能辅助诊断中的应用潜力, 并讨论知识图谱构建过程中的挑战和改进方向, 展望知识图谱在农业领域的未来发展方向。
1柑橘病虫害知识图谱设计
本研究旨在构建柑橘病虫害知识图谱, 以提供有效的病虫害防治知识管理和应用支持, 图谱的整体结构如图 1 所示。 下面将详细介绍研究材料与方法, 包括选取的病虫害知识材料、 实体与关系定义。
图 1 知识图谱框架图
1. 1柑橘病虫害知识材料的选取
为获取关于柑橘病虫害全面和准确的知识材料, 构建柑橘病虫害领域预料数据库, 研究进行了广泛的文献检索和数据收集。 首先利用网络公开数据进行柑橘疾病的检索, 获取了网络页面中关于柑橘病虫害的详细介绍和相关信息。 随后在学术数据库中使用 “柑橘” “病虫害” “防治” 等关键词进行检索, 收集大量与柑橘病虫害相关的科研文献。
这些文献提供了更加专业和详尽的柑橘病虫害知识, 包括病虫害种类、 病害症状、 防治措施等方面的内容。
1. 2图谱模式层构建
为了构建准确和详细的柑橘病虫害知识图谱的Shcema 模式层, 本研究自上而下地定义了一系列实体类别和实体关系。 在实体类别方面, 设计了柑橘病虫害的多个方面, 如病虫害种类、 害虫、 病害症状、 防治措施、 危害类别等。 对每个实体类别进行了详细的定义和描述, 确保知识图谱能够全面反映柑橘病虫害的相关知识。
在实体关系方面, 本研究定义了各种实体之间的关联关系, 以描述它们之间的相互作用和影响。例如, 研究定义了病虫害与病害症状之间的外部表现关系、 病虫害与时间之间的流行规律关系、 病虫害与地域之间的分布关系、 防治措施与病虫害之间的适用关系、 病虫害对植株位置的危害关系等。 这些实体关系的定义能够帮助研究建立起一个更加完整和准确的知识图谱 (图 2)。
图 2 图谱领域本体建模
2数据抽取与知识图谱存储
2. 1基于大语言模型的数据结构化
为了提取和整理实体与关系数据, 本研究采用了大语言模型 GPT⁃3. 5⁃turbo⁃16k 作为关键工具,用于对非结构化数据进行预处理和结构化转换。 大语言模型具有生成能力和上下文理解能力, 能够自动提取出实体和关系, 并进行去重处理, 从而确保知识图谱的准确性和一致性。
在数据结构化的过程中, 研究首先通过人工创建了一张包含柑橘病虫害及其相关属性的样例表格, 其中包括病虫害的症状、 种类、 常见地区、 危险程度、 发生规律、 暴发时间、 主要危害、 为害位置、 预防措施、 生物农药和化学农药等内容。 该样例表格作为输入提示词供大语言模型学习和理解柑橘病虫害领域的特定知识。
随后, 将完整的非结构化文献数据导入到大语言模型中, 以进行整合和生成结构化数据。 导入过程限制单次文献输入字数在 8 000 以下, 以保证模型的处理。 通过与大语言模型的交互, 我们能够获取模型生成的结构化数据, 将其转换为 csv 格式的数据, 以便后续的知识图谱构建和管理。
基于大语言模型的数据结构化方法, 研究将非结构化的病虫害知识转化为结构化的数据形式。 这种方法有效提高了数据的组织性和可管理性。 然而, 在使用大语言模型进行数据结构化时, 需要对模型的输出进行验证和校对, 以确保生成的结构化数据的准确性和可靠性。 生成的数据集如表 1所示。
表 1柑橘病虫害数据集
2. 2知识图谱的存储
为存储和管理柑橘病虫害知识图谱, 研究选择了 Neo4j 数据库作为存储和查询工具。 Neo4j 是一种图数据库, 能够高效地存储和处理图结构数据,非常适合知识图谱的管理。
在构建知识图谱时, 使用 py2neo 将从病虫害知识材料中提取的实体和关系数据导入到 Neo4j 数据库中, 并建立相应的节点和关系。 通过 Neo4j 提供的查询语言 Cypher, 可以实现对知识图谱进行灵活的查询和分析, 从而支持精准病虫害信息查询、智能辅助诊断等下游任务的实现。
3知识图谱可视化与应用
为了更好地展示知识图谱, 研究采用了可视化技术。 通过 Neo4j 提供的可视化工具或其他第三方可视化库, 可以将知识图谱以图形的形式呈现出来, 使用户能够直观地浏览和理解柑橘病虫害知识的组织结构和关联关系。 通过交互式的可视化界面, 用户可以探索知识图谱的各个部分, 深入了解柑橘病虫害的相关知识。
本研究已构建出一个包含丰富柑橘病虫害知识的图谱, 并通过 Neo4j 数据库实现对知识的存储、查询和可视化, 如图 3 所示, 为精准病虫害信息查询、 智能辅助诊断等下游任务提供了底层技术支撑, 为农业生产者提供了更加高效和准确的决策依据。 同时, 本研究的方法和框架也可以为其他农作物的病虫害知识图谱构建提供参考和借鉴。
图 3 柑橘病虫害知识图谱可视化
3. 1病虫害信息查询
病虫害信息查询是柑橘病虫害知识图谱的一个重要应用场景 (图 4)。 通过知识图谱的可视化界面, 用户可以方便快捷地查找和获取特定病虫害相关的信息。 在柑橘病虫害领域, 病虫害信息查询的需求主要包括以下几个方面:
图 4 病虫害信息查询
病虫害识别: 用户可以通过知识图谱查询柑橘病虫害的症状、 特征和传播方式, 以便准确识别柑橘树上出现的病虫害问题。 通过可视化界面, 用户可以点击相关节点或输入关键词, 快速定位到特定病虫害实体, 并获取其详细信息。
防治措施查询: 用户可以查询柑橘病虫害的防治措施, 了解如何预防和控制柑橘病虫害的发生和传播。 知识图谱的可视化界面可以展示不同病虫害实体与防治措施之间的关联关系, 用户可以点击相关节点或边, 获取详细的防治信息和建议。
病虫害分布查询: 用户可以查询柑橘病虫害在不同地区的分布情况, 了解病虫害的流行趋势和危害程度。 通过知识图谱的可视化界面, 用户可以浏览地理位置节点和病虫害实体之间的关系, 以及相关的统计数据和图表, 从而获取全面的分布信息。
3. 2病虫害辅助诊断
病虫害辅助诊断是另一个重要的柑橘病虫害知识图谱应用场景。 通过知识图谱的可视化界面, 用户可以基于柑橘病虫害的症状和特征, 进行智能化的辅助诊断和推荐。 在柑橘病虫害辅助诊断中, 以下几个方面值得关注。
病虫害位置识别: 在对病虫害进行症状识别前, 知识图谱可以帮助用户确定柑橘树上病虫害的位置。 通过查询知识图谱中的柑橘病虫害实体节点和其相关的位置节点之间的关联关系, 用户可以了解到不同病虫害常发生的位置, 例如叶片、 果实、树干等部位。 知识图谱的可视化界面可以以图形化的方式展示这些关联关系, 用户可以直观地了解病虫害在柑橘树上的分布情况, 并根据观察到的病虫害位置进行识别和判断 (图 5)。
图 5 病虫害危害位置查询
病虫害推荐: 基于用户提供的病虫害症状信息, 知识图谱可以进一步查询可能的病虫害类型和相应的防治措施。 通过可视化界面, 用户可以输入症状信息, 系统会根据已有的知识图谱数据进行匹配和推荐, 展示结果和对应病虫害相关的防治建议。
多因素综合分析: 通过知识图谱的可视化界面, 用户可以探索不同因素与病虫害之间的关联关系, 并进行多因素综合分析。 用户可以点击相关节点或边, 获取不同因素的详细信息和统计数据, 从而进行综合判断和决策。
通过以上的可视化设计和实现, 柑橘病虫害知识图谱可以为病虫害信息查询和病虫害辅助诊断提供强大的支持。 用户可以通过可视化界面深入了解柑橘病虫害的相关知识, 并基于图谱进行决策。
4结论与展望
本研究旨在构建柑橘病虫害知识图谱, 并探索其在病虫害信息查询和病虫害辅助诊断方面的应用潜力。 通过对柑橘病虫害知识的实体类型和关系种类进行定义, 并运用大语言模型进行实体和关系的提取与去重, 成功构建了一个包含丰富柑橘病虫害知识的图谱。
通过使用 Neo4j 数据库进行知识图谱的存储和管理, 我们能够有效地存储和查询柑橘病虫害的相关知识, 并通过可视化技术将知识图谱以图形的形式展示给用户, 为农业生产者提供了更加高效和准确的病虫害信息查询和病虫害辅助诊断工具。
在病虫害信息查询方面, 用户可以通过可视化界面快速定位和查找特定的病虫害实体, 并获取其相关信息和防治措施。 在病虫害辅助诊断方面, 用户可以基于柑橘病虫害的症状和特征, 进行智能化的诊断和推荐。 通过与其他农业数据源的集成, 用户可以根据柑橘病虫害的症状和特征, 进行综合分析和决策。
综上所述, 柑橘病虫害知识图谱的构建为精准病虫害信息查询和智能辅助诊断提供了强有力的支持。 通过可视化界面, 农业生产者可以更好地理解和探索柑橘病虫害的相关知识, 并基于图谱进行决策和行动。 然而, 知识图谱的构建和管理仍面临一些挑战, 如数据质量和知识更新等方面的问题。 未来的研究可以进一步完善柑橘病虫害知识图谱的构建方法, 提高图谱的准确性和实用性, 以更好地支持农业生产者的决策和防治工作。
来源:青钱柳