Neural Chinese Named Entity Recognition via CNN-LSTM-CRF and Joint Training with Word Segmentation
概述
中文与英文相比,词之间没有明显的分隔符,所以很难确定实体的边界,另外中文命名实体识别任务的标注语料也很少。所以文章中作者提出了CNN-LSTM-CRF架构去获得短距离和长距离的内容依赖。同时为了提高识别实体边界的准确率,作者提出命名实体识别任务和分词任务联合学习。由于中文命名实体识别的语料较少,作者利用相同实体类型替换的方法,扩增语料。
总体框架图
相比于传统的BiLSTM-CRF开始端加入了CNN,提取短距离特征,并且CNN的输出作为分词任务的输入,达到命名实体识别任务和分词任务联合学习的效果,有效得提高了命名实体识别的准确率
扩增语料
作者提出从预先标注的语料中,产生伪语料,用于扩展语料,提高模型效果,具体
李刚 | 刚 | 在 | 阿 | 里 | 工 | 作 |
---|---|---|---|---|---|---|
B-PER | I-PER | O | B-ORG | I-ORG | O | O |
可以用相同类型的实体进行替换,替换后符合语义合理,符合规范。
王 | 小 | 超 | 在 | 谷 | 歌 | 工 | 作 |
---|---|---|---|---|---|---|---|
B-PER | I-PER | I-PER | O | B-ORG | I-ORG | O | O |
打标签的时候,进行相应的替换就可以。