摘要:引用格式:王彤, 王春山, 李久熙, 朱华吉, 缪祎晟, 吴华瑞. 基于RoFormer预训练模型的指针网络农业病害命名实体识别[J]. 智慧农业(中英文), 2024, 6(2): 85-94.
引用格式
01
引用格式:王彤, 王春山, 李久熙, 朱华吉, 缪祎晟, 吴华瑞. 基于RoFormer预训练模型的指针网络农业病害命名实体识别[J]. 智慧农业(中英文), 2024, 6(2): 85-94.
DOI:10.12133/j.smartag.SA202311021
WANG Tong, WANG Chunshan, LI Jiuxi, ZHU Huaji, MIAO Yisheng, WU Huarui. Agricultural Disease Named Entity Recognition with Pointer Network Based on RoFormer Pre-trained Model[J]. Smart Agriculture, 2024, 6(2): 85-94.
基于RoFormer预训练模型的指针
网络农业病害命名实体识别
王彤1,2, 王春山1,2,4, 李久熙5, 朱华吉1,3, 缪祎晟1,3, 吴华瑞1,3*
(1.国家农业信息化工程技术研究中心,北京 100097,中国;2.河北农业大学 信息科学与技术学院,河北保定 071001,中国;3.农业农村部农业信息化技术重点实验室,北京 100097,中国;4.河北省农业大数据重点实验室,
河北保定 071001,中国;5.河北农业大学 机电工程学院,河北保定 071001,中国)
摘要:
[目的/意义]针对实体嵌套、实体类型混淆等问题导致的农业病害命名实体识别(Named Entities Recognition, NER)准确率不高的情况,以PointerNet为基准模型,提出一种基于RoFormer预训练模型的指针网络农业病害NER方法RoFormer-PointerNet。
[方法]采用RoFormer预训练模型对输入的文本进行向量化,利用其独特的旋转位置嵌入方法来捕捉位置信息,丰富字词特征信息,从而解决一词多义导致的类型易混淆的问题。使用指针网络进行解码,利用指针网络的首尾指针标注方式抽取句子中的所有实体,首尾指针标注方式可以解决实体抽取中存在的嵌套问题。
[结果和讨论]自建农业病害数据集,数据集中包含2 867条标注语料,共10 282个实体。为验证RoFormer预训练模型在实体抽取上的优越性,采用Word2Vec、BERT、RoBERTa等多种向量化模型进行对比试验,RoFormer-PointerNet与其他模型相比,模型精确率、召回率、F1值均为最优,分别为87.49%,85.76%和86.62%。为验证RoFormer-PointerNet在缓解实体嵌套的优势,与使用最为广泛的双向长短期记忆神经网络(Bi-directional Long Short-Term Memory, BiLSTM)和条件随机场(Conditional Random Field, CRF)模型进行对比试验,RoFormer-PointerNet比RoFormer-BiLSTM模型、RoFormer-CRF模型和RoFormer-BiLSTM-CRF模型分别高出4.8%、5.67%和3.87%,证明用指针网络模型可以很好解决实体嵌套问题。最后验证RoFormer-PointerNet方法在农业病害数据集中的识别性能,针对病害症状、病害名称、防治方法等8类实体进行了识别实验,本方法识别的精确率、召回率和F1值分别为87.49%、85.76%和86.62%,为同类最优。
[结论]本研究提出的方法能有效识别中文农业病害文本中的实体,识别效果优于其他模型。在解决实体抽取过程中的实体嵌套和类型混淆等问题方面具有一定优势。
关键词: 农业病害;命名实体识别;实体嵌套;RoFormer预训练模型;指针网络
文章图片
图1 NER实体嵌套结构示例
Fig. 1 Example of NER entity nested structure
图2 命名实体识别方法结构图
Fig. 2 Structure diagram of named entity recognition method
图3 指针网络标注方式
Fig. 3 Annotation method of pointer network
图4 农业病害语料生成过程
Fig. 4 The process of generating agricultural disease corpus
图5 作物病害数据集标注示例
Fig. 5 Example of annotation for crop disease datasets
图6 命名实体识别数据格式
Fig. 6 Data format of named entities recognition
图7 农业病害实体类型实验对比结果
Fig. 7 Comparative results of experiments on entity types of
agricultural diseases
吴华瑞 研究员
吴华瑞,研究员,科技部“十四五”数字乡村技术预测专家组组长、国家“十四五”重点专项“乡村产业共性关键技术研发与集成应用”总体组专家、农业农村部数字乡村技术重点实验室主任,农业农村部特色经济作物全程机械化专家组成员,中国人工智能学会智能农业专委会主任,国家大宗蔬菜产业技术体系智能化管理岗位科学家,入选国家级人才。主要从事农业大数据、人工智能与蔬菜智慧无人农场相关研究工作。近年来获国家科技进步奖1项,省部级奖励5项,发表论文85篇(SCI 25篇),授权发明专利37项,编制颁布标准8项,著作2部,软著34项。
来源:芹菜科技圈