1.NER简介
单句子标注任务,又叫命名实体识别(Named Entity Recognition),简称NER,是一个序列标注任务。
常见的NER数据集有CoNLL-2003 NER。
NER是指识别文本中具有特定意义的实体。包括三大类(实体类,时间类,数字类),七小类(人名P/PER(person),地名A/LOC(address,local),机构名O/ORG(organization),时间TIME,日期,货币,百分比)。
2.纯中文标注
(1)IO
命名实体内部 Inner,命名实体外部(不是命名实体)Outer。
(2)BIO(常用)
命名实体的开始Begin,命名实体内部Inner,命名实体外部(不是命名实体)Outer。
(3)BIESO(常用)
命名实体的开始Begin,命名实体内部Inner,命名实体外部(不是命名实体)Outer,命名实体结尾End,单字的词/独立命名实体Single。
位置实体的开头(B_LOC),位置实体的中间(I_LOC)。
(4)BMES
命名实体的开始Begin,命名实体中间Middle,命名实体结尾End,单字的词/独立命名实体Single。
(5)BMEWO
命名实体的开始Begin,命名实体中间Middle,命名实体外部(不是命名实体)Outer,命名实体结尾End,一个字的独立命名实体Whole。
3.既有中文又有英文
(1)BIOX
如果处理的数据中有英文,采用BIOX。
命名实体的开始Begin,命名实体内部Inner,命名实体外部(不是命名实体)Outer。
X标注英文单词分词之后的非首单词。也就是词根用BIO正常标注,词缀用X表示。
eg:playing 输入BERT模型前会被BERT自带的Tokenization工具分为“play”和“#ing”。二者分别标注为O和X。
参考:
https://www.cnblogs.com/jiangxinyang/p/9368482.html
https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/
https://www.bilibili.com/video/BV1BK4y1C7Hj?from=search&seid=13802326660109437745