NLP之中文命名实体识别(Named EntitiesRecognition--NER)

一、什么是命名实体识别

命名实体识别是识别一个句子中有特定意义的实体并将其区分为人名，机构名，日期，地名，时间等类别的工作。

命名实体识别本质上是一个模式识别任务, 即给定一个句子, 识别句子中实体的边界和实体的类型。是自然语言处理任务中一项重要且基础性的工作。

二、实体关系抽取

实体和实体之间存在着语义关系, 当两个实体出现在同一个句子里时, 上下文环境就决定了两个实体间的语义关系。

完整的实体关系包括两方面：关系类型和关系的参数，关系类型说明了该关系是什么关系, 如雇佣关系、类属关系等；关系的参数也就是发生关系的实体，如雇佣关系中的雇员和公司。关系的参数至少是两个，两个参数的关系叫二元关系, 两个以上参数的关系是多元关系。关系有对称关系和非对称关系, 对称关系的参数不考虑参数的顺序, 非对称关系的参数要考虑顺序, 不同的顺序表达不同的关系。有时候实体关系还会有时间属性, 即实体关系存在的有效期。

实体关系抽取问题可以看做一个分类问题。使用有监督（标记学习）、半监督（统计分析）或无监督（聚类方法）等方法进行。实体关系抽取往往关注一个句子内的上下文，所以跨句子的上下文关系抽取就比较难。

实体识别和实体关系抽取问题基本思路就是转换为分类或序列标注问题进行解决。
实体识别和实体关系抽取领域会出现性能严重下降的问题。

三、命名实体识别算法

主要有基于规则和基于统计两种思路。
基于规则的方法主要是根据待识别的命名实体的语言学上的表现形式，人为设定一些规则来识别命名实体的方法。这类方法实现的效果很大程度上依赖于规则的设定且需要大量的专业知识，而且因为不同领域内的实体具有不同的规则，所以对每个新领域的文本处理都要重新设定规则。使用基于规则的方法来进行命名实体识别比较消耗时间和消耗人力。基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法，以模式和字符串相匹配为主要手段，这类系统大多依赖于知识库和词典的建立。基于规则和词典的方法是命名实体识别中最早使用的方法，一般而言，当提取的规则能比较较精确地反映语言现象时，基于规则的方法性能要优于基于统计的方法。
基于统计的方法主要利用原始的或经过加工的（人工标注的）语料进行训练，其语料的加工（标注）不需要非常多的语言学的知识，而且小规模的语料可以在可接受的时间和人力代价下完成，且基于统计的方法实现的命名实体识别在新的领域使用时可以不作改动或者做较少的改动，只需要利用新领域的语料进行训练即可。但是由于基于统计的方法获取的概率知识不如基于规则的方法所具有的专家的语言学知识的可靠性，所以基于统计的命名实体识别系统的性能要比基于规则的命名实体识别的性能要低。用于命名实体识别的基于统计的方法主要有：N元模型、隐马尔克夫模型（HiddenMarkovMode,HMM）、最大熵模型（MaxmiumEntropy，ME）、条件随机场( ConditionalRandom Fields,CRF)、决策树（Decision Tree）等等。目前评价性能最好的是隐马尔克夫模型。
混合方法 自然语言处理并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空间非常庞大，必须借助规则知识提前进行过滤修剪处理。目前几乎没有单纯使用统计模型而不使用规则知识的命名实体识别系统，在很多情况下是使用混合方法：1、统计学习方法之间或内部层叠融合。 2、规则、词典和机器学习方法之间的融合，其核心是融合方法技术。在基于统计的学习方法中引入部分规则，将机器学习和人工知识结合起来。3、将各类模型、算法结合起来，将前一级模型的结果作为下一级的训练数据，并用这些训练数据对模型进行训练，得到下一级模型。这种方法在具体实现过程中需要考虑怎样高效地将两种方法结合起来，采用什么样的融合技术。由于命名实体识别在很大程度上依赖于分类技术,在分类方面可以采用的融合技术主要包括如Voting, XVoting,GradingVa,Grading等

四、中文命名实体识别工具（国内）

中科院汉语分词系统ICTCLAS

哈工大LTP

HanLP

参考原文：https://www.jianshu.com/p/ac9ed9c3c530