基于深度学习的中文命名实体识别技术研究

360影视 2025-02-05 18:44 2

摘要:命名实体识别(NER)是NLP领域的一项基础底层任务。针对当前传统的基于规则和统计方法存在特征提取的精准度和模型的可扩展性上不足的问题,中文命名实体识别技术在利用神经网络学习模型时得到了极大地改善。除了通过Bert预训练模型和相关的公开数据集对文本数据特征提取

江西地名研究

关注

摘要:命名实体识别(NER)是NLP领域的一项基础底层任务。针对当前传统的基于规则和统计方法存在特征提取的精准度和模型的可扩展性上不足的问题,中文命名实体识别技术在利用神经网络学习模型时得到了极大地改善。除了通过Bert预训练模型和相关的公开数据集对文本数据特征提取、识别实体之外还融合了人工标注的地名和组织机构实体的额外数据集来增强模型的词义理解准确度。实验结果表明,模型的实体识别能力有所提高。

关键词:自然语言处理;中文命名实体识别;深度学习;中文分词

0 引言

命名实体识别通常指的是文中具有固定含义和指代性强的文本数据,通常包括人称、地理位置名称、组织或者机构名称等。在信息理解会议(Message Understanding Conference,MUC)任务上命名实体识别任务首次被专家学者们提出;之后Collins等人提出的DLCoTrain方法,通过定义规则集来进行命名实体识别;Feng等人对于数据集很少的问题,在模型中加入条件随机场,结果得到了提升;Collins等的CoBoost方法,通过构建分类器来对模型进一步改进。研究人员在无数的探索尝试中得出结论,所研究实体的边界范围的确定是实验的首要任务,其次是将实体归类到其相对应标签当中去。这种方法的核心在于将文本语料转化为计算机可以识别处理的向量或者矩阵,再将转化后的文本数据输入到所构建的算法模型中,经过分类器对实体进行识别分类,再将结果输出。在具体应用中,实体的准确分类和划分,对下游任务如机器翻译。基于规则、统计模型和深度学习的方法是NER在其发展历程的三类主要技术方法。无论哪种技术方法,分词是第一步。分词是实现文本理解的基础。目前分词方法有两类:基于词典的方法,该方法依赖人工设计分词规则,所输入的文本由模型依据所设计的规则切分单词,之后再词典中查询,通过与词典中的单词匹配来完成分词。

这种方法不仅简单、有效,还容易操作,但是其缺点是对于不在词汇表中的单词无法识别,同时容易产生切分歧义。另一种基于统计的机器学习方法,构建语料库来对模型进行训练从而进行参数学习以此来提取特征,其数学原理是一个概率最大化问题。但是该方法的分词性能过于依赖所训练的语料库。常见的分词工具有:Jieba分词、THULAC(THU Lexical Analyzer for Chinese)中文词法分析工具包、中科院计算所NLPIR分词系统、搜狗分词等。

序列标注就是对文本中实体的每个字词及其词性加以标注,并在标注完成后对给定的文本序列进行类型预测。常用的序列标注方法有三种,分别为BIO、BMES和BIOES方法。

领域中对实体识别准确度的衡量方式使用信息检索领域常用的正确率Precision、召回率Recall和F1值F1score。以下对NER算法进行介绍:

1 相关工作

1.1 基于规则方法

早期的NER研究,手动构造规则有限,之后从文本中查找与这些规则相匹配的单词字符串,但即使是基于规则,研究人员还试图使计算机可以自动生成所需规则,其中最具象征意义的是Collins等提出的DLCoTrain技术,先定义规则集,然后研究人员迭代基于语料库的集合进行无监督训练,最终得到的多个规则集用于命名实体的分类;Feng等人针对单个条件随机场现场抽取器CRF的召回率和准确性不高的问题,通过将规则模板、CRF和多个中文实体词典相组合的技术算法,最终取得了良好的效果。一些研究人员提出了规则和统计模型ME的结合NER系统,实验发现在使用基于统计模型当中词典依然可以很好地识别地理名称。由此研究人员发现,基于规则的方法仅仅只是在一些特定的语料上对于命名体的识别有相对较好的效果,但却极度依赖于人工规则制定,并且与词典库相结合对规则进行权重调节,最后实验通过实体与规则的是否匹配的情况来进行实体类型判断.研究者在之后的实验中发现,当实体识别的领域不同时,所制定的规则往往无法移植到其他领域。因此研究者们有了新的研究思路。

1.2 基于统计方法

通过与基于规则相比较,所提出的技术不需要诸多繁琐的规则设计的同时还可以帮助研究人员节省时间训练手动注释语料库,提高执行效率。统计学习包括监督学习、非监督学习、半监督学习和强化学习.对于预测和分析数据(尤其是新的未知数据)可以使计算机更智能,给人们带来新的发现。该方法分为两个步骤,第一对于所提供的语料利用NER技术先对其边界进行划分,然后对所划分的实体类型归类,如Collins等的CoBoost方法,该方法经前期的处理后得到两个分类器,再整合到一个分类器。所提出的标注方法,针对文本中词,都对应有若干个候选的类别标注标签,这些标签与其在各类命名实体中所处的位置相对应。第二是序列标注,该方法中NER的任务就是自动标注(即分类)序列化文本中的每个词,再将所得到的标签分类整理,得到所需的命名实体类别。所提出的标注方法是目前最为有效和最同通用的中文命名实体识别方法。目前常用的模型有隐马尔可夫模型、条件随机场模型和最大熵模型等。

1.3 基于深度学习方法

传统的中文命名实体识别方法,在处理大量多学科的复杂文献信息过程中,暴露出了一些缺陷。随着深度学习技术的开发以及在自然语言处理方面的应用,研发人员也相继地将深度学习方法运用到对中文的实体识别,能力得到了提升。深度学习来源于对人工神经网络的深入研究,由Hinton等人在2006年提出。通过组合的深度学习中低级别的特性,可以形成对属性类或数据的更抽象的高级表示,以被识别数据的分布信息为特征的。深度学习可以涵盖许多方面,包含更广泛的内容,能够帮助解决在机器学习以前大量难以解决的问题,其本质上也是机器学习的子集。

常见的深度学习模型包括卷积神经网络、深度神经网络、循环神经网络、生成对抗网络和长短时记忆神经网络等。

神经网络由三部分组成,分别为输入层、隐藏层和输出层。输入层负责读取给予输入的特征信息并对其进行原样输出;隐藏层的神经单元负责将输入层的特征信息进行组合计算后传递到输出层;输出层将隐藏层的计算结果处理后输出。

2 注意力机制

随着深度学习技术的不断发展进步,注意力机制在机器翻译、图像描述生成和语音识别等领域中得到了广泛的应用。注意力机制源自于人对于外部信息的处理能力。由于人每一时刻接受的信息都是无比的庞大且复杂,远远超过人脑的处理能力,因此人在处理信息的时候,会将注意力放在需要关注的信息上,对于其他无关的外部信息进行过滤。注意力机制通过调节权重去聚焦信息,对于重要的信息赋予高权重,对不相关的信息给予低权重,同时还可以根据数据不断调整权重,使得在各应用领域的数据也可以选取重要信息,基于此改进方法具有更高的可扩展性和鲁棒性。

注意力机制最早被用来处理计算机视觉图像,之后Google Mind团队在RNN模型的上图像分类技术采用了注意力机制。之后,Bahdanau等人在论文《Neural Machine Translation by Jointly Learning to Alignand Translate》中,机器翻译任务使用了类似的注意力机制,并且所取得的效果也较为显著,这项工作被认为是首次将注意力机制应用于NLP领域中。之后基于注意力机制的RNN模型逐渐开始应用到各种NLP任务中。其基本网络框架如图1所示。

2.1 注意力机制应用

早在20世纪90年代就有研究者提出注意力机制的概念,在图像分类任务中Google Mind团队将注意力机制与RNN结合取得显著成果。之后Bahdanau等将该机制运用于自然语言处理中的机器翻译任务,翻译的精度明显提高。Transformer模型是注意力机制成功应用的典型代表,其以Self-attention为基础。Transformer有两个部分:Encoder(编码器)和Decoder(解码器)。Encoder包含两个子层,分别为多头的注意力层和前馈网络层;Decoder主要由两个多头注意力层和一个前馈网络组成。Transformer相较于其他的Seq2seq模型最大的特点在于其使用了多头注意力来替换了RNN。首先是输入,RNN按顺序逐词处理输入,而Transformer的输入是整体上处理一个句子,实现了并行计算同时加入了位置编码,以此来识别出语言中的顺序关系.然后多头注意力层不同于CNN方法中无法获取数据间的关联性,可以捕获文本数据内部之间的依赖关系。

3 相关研究技术

本文采用BERT预训练模型来进行实验,用其Encoder层来进行特征的提取,提取所输入文本的上下文依赖关系,对没有经过标注的文本预先训练深度双向表示。其本质就是“预训练”+“微调”,使用了公开数据集以及人工标注的地名和组织机构实体的额外数据集,可以使模型更好地理解上下文语义信息,提高提取准确度,词向量语义融合过程如图2所示。

编码器对文本向量处理后其输出作为解码器的输入。在Transformer模型中,这种运行机制的编码器层在编码器-解码器结构中一共有6层,相对应的解码器也有6层。在中文命名实体识别任务中常用到的BERT模型,其单独使用了Transformer模型的编码器结构,由12层堆叠而成。值得注意的是,Transformer模型中的编码器有两个子层,而编码器有三个子层,按照数据处理顺序分别为掩码多头注意力机制层,多头注意力机制层和前馈连接层。

4 实体识别实验

本次实验采用BERT模型,实验数据集采用MSRA数据集,分为训练集和测试集并且有相应的实体类型,每个词都有对应的实体类型标签。实验平台为Windows10 64位操作系统,使用的框架为Py-torch2.4,使用的解释器为Python3.7。通过与ERNIE模型、LSTM模型、CRF模型、传统方法的实验结果进行对比分析如表2所示。

在相同数据集下与CRF模型相比,BERT模型的F1值更高。在不同的数据集下,ERNIE的F1值比BERT高0.4。所以不同的数据集对实验结果会产生影响,今后还需要进行大量训练,不断优化模型参数。图3为不同的预训练模型参数量对比。

5 结语

本文使用Bert模型,通过公开数据集融合人工标注的地名和组织机构实体数据集对模型进行训练,结果在准确度上有所提高,为中文命名实体识别技术研究提供了数据支撑。

对于中文命名实体识别任务而言,得益于深度学习的发展,命名实体识别模型实现了更好的效果,对各种细节问题也有了精细化的建模,但是深度学习技术也带来了一些问题,比如标注数据同参数规模不匹配的问题、精细模型并行化程度不高的问题等。中文命名实体识别应用于诸多领域,例如中文医学、电子病例、电网、化学和农业等领域,并且效果也令人满意。但是,当前中文NER的研究仍然受到诸多因素的制约:第一是实体边界信息模糊;第二是一词多义,在简短的上下文中无法正确归类;第三是模型参数量大,需要消耗大量时间;第四是模型泛化能力较弱。

作者:武文静、岳杰、王佳丽、刘枫

2024年第3期

选稿:江西地名研究小组

编辑:杜佳玲

校对:朱 琪

审订:刘 言

责编:汪鸿琴

来源:中国地名资讯

相关推荐