序列标注

1.NER简介

单句子标注任务,又叫命名实体识别(Named Entity Recognition),简称NER,是一个序列标注任务。

常见的NER数据集有CoNLL-2003 NER。

NER是指识别文本中具有特定意义的实体。包括三大类(实体类,时间类,数字类),七小类(人名P/PER(person),地名A/LOC(address,local),机构名O/ORG(organization),时间TIME,日期,货币,百分比)。

2.纯中文标注

(1)IO

命名实体内部 Inner,命名实体外部(不是命名实体)Outer。

(2)BIO(常用)

命名实体的开始Begin,命名实体内部Inner,命名实体外部(不是命名实体)Outer。

(3)BIESO(常用)

命名实体的开始Begin,命名实体内部Inner,命名实体外部(不是命名实体)Outer,命名实体结尾End,单字的词/独立命名实体Single。

位置实体的开头(B_LOC),位置实体的中间(I_LOC)。

(4)BMES

命名实体的开始Begin,命名实体中间Middle,命名实体结尾End,单字的词/独立命名实体Single。

(5)BMEWO

命名实体的开始Begin,命名实体中间Middle,命名实体外部(不是命名实体)Outer,命名实体结尾End,一个字的独立命名实体Whole。  

3.既有中文又有英文

(1)BIOX

如果处理的数据中有英文,采用BIOX。

命名实体的开始Begin,命名实体内部Inner,命名实体外部(不是命名实体)Outer。

X标注英文单词分词之后的非首单词。也就是词根用BIO正常标注,词缀用X表示。

eg:playing 输入BERT模型前会被BERT自带的Tokenization工具分为“play”和“#ing”。二者分别标注为O和X。

参考:

https://www.cnblogs.com/jiangxinyang/p/9368482.html

https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/

https://www.bilibili.com/video/BV1BK4y1C7Hj?from=search&seid=13802326660109437745

猜你喜欢

转载自www.cnblogs.com/sybil-hxl/p/12929901.html