命名实体识别(NER)

版权声明:转载请声明转自Juanlyjack https://blog.csdn.net/m0_38088359/article/details/83450413

学习笔记,详情请点击此处

0、前言

NER又称作专名识别,是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。

学术上NER所涉及的命名实体一般包括3大类(实体类,时间类,数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。

实际应用中,NER模型通常只要识别出人名、地名、组织机构名、日期时间即可,一些系统还会给出专有名词结果(比如缩写、会议名、产品名等)。货币、百分比等数字类实体可通过正则搞定。另外,在一些应用场景下会给出特定领域内的实体,如书名、歌曲名、期刊名等。

NER也是关系抽取、事件抽取、知识图谱、机器翻译、问答系统等诸多NLP任务的基础。

命名实体识别的目前状态:只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名、组织机构名)中取得了不错的效果;与其他信息检索领域相比,实体命名评测语料较小,容易产生过拟合;命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要;通用的识别多种类型的命名实体的系统性能很差。

1、如何进行命名实体识别

在这里插入图片描述

(1)BiLSTM-CRF
传统方法 :直接由Embedding层+RNN:将token从离散one-hot表示映射到低维空间中成为稠密的embedding,随后将句子的embedding序列输入到RNN中,用神经网络自动提取特征,Softmax来预测每个token的标签。

这种方法的一个缺点是对每个token打标签的过程是独立的进行,不能直接利用上文已经预测的标签(只能靠隐含状态传递上文信息),进而导致预测出的标签序列可能是无效的,例如标签I-PER后面是不可能紧跟着B-PER的,但Softmax不会利用到这个信息。

在神经网络的输出层接入CRF层(重点是利用标签转移概率)来做句子级别的标签预测,使得标注过程不再是对各个token独立分类。

改进 :
由Embedding层(主要有词向量,字向量以及一些额外特征),双向LSTM层,以及最后的CRF层构成。原理如下图:
在这里插入图片描述

(2)IDCNN-CRF
由于句子本身是一个长序列,会有长距离依赖,我们是要捕捉到整个序列的特征信息,如果用CNN来做的话,末层神经元可能只获得原始输入的一小块信息,所以为了覆盖全部的输入信息就需要更多的卷基层,层数越多,参数也会越来越多,当参数越多模型就会越复杂越容易过拟合,我们就要加入Dropout之类的正则化,带来更多的超参数,如此下来模型就很难训练。

而因为CNN能利用GPU的并行计算,这样的效率会快许多,我们就不得不对CNN进行改进。

Fisher Yu and Vladlen Koltun 2015 提出了dilated CNN模型,意思是“膨胀的”CNN。dilated CNN为这个filter增加了一个dilation width,作用在输入矩阵的时候,会skip所有dilation width中间的输入数据;而filter本身的大小保持不变,这样filter获取到了更广阔的输入矩阵上的数据,看上去就像是“膨胀”了一般。

dilated width会随着层数的增加而指数增加。这样随着层数的增加,参数数量是线性增加的,而receptive field却是指数增加的,可以很快覆盖到全部的输入数据。

在这里插入图片描述

感受域随着步长的扩大而变化。
过程
(1)原始感受域位于中心11区域,大小为11。
(2)感受域按步长为1向外扩散,得到8个11的感受域构成的新感受域,并且总大小为33。
(3)以中心点按照步长为2继续向外扩散,感受域总大小扩大为7*7。
(4)经步长为4的扩散,原7x7的感受域扩大为15x15的感受域。

可以看到:每一层的参数数量是相互独立的。感受域呈指数扩大,但参数数量呈线性增加。

2、数据增强

对于深度学习方法,一般需要大量标注语料,否则极易出现过拟合,无法达到预期的泛化能力。
方法
(1)对原语料进行分句,然后随机地对各个句子进行bigram、trigram拼接,最后与原始句子一起作为训练语料。
(2)利用收集到的命名实体词典,采用随机替换的方式,用其替换语料中同类型的实体,得到增强语料。

补充:IDCNN-CRF的收敛速度基于GPU会远超过BiLSTM-CRF。

猜你喜欢

转载自blog.csdn.net/m0_38088359/article/details/83450413