Keras命名体识别(NER)实战---自然语言处理技术

命名体识别(Name Entity Recognition)是自然语言处理(Nature Language Processing)领域中比较重要的一个任务,几乎百分之50的和文本处理有关的项目中都会涉及到命名体识别。笔者认为其中最关键的原因是:从广义的角度来讲,如果把一句话比作一串珍珠的话,命名实体就是这串珍珠项链中的珍珠,句子的其他部分是把珍珠串起来的线。

举个例子: "小明1992年哈佛大学毕业 "

其中小明,1992年,哈佛大学都是命名实体,而这些实体包含了这句话里面的极为重要信息:人物信息,时间信息,还有组织信息。而其他的词将这些实体串起来,才能表达出这句话完整的语义。

而在一些专业领域,比如化学,医药领域,经常出现一些四氧化三铁,阿尔兹海默症等专业词汇,如果只通过简单的分词很难将这些重要的关键词汇识别出来。而在这样的场景下,NER就能发挥出它的威力了。

总而言之,NER 的任务就是要将这些包含信息的或者专业领域的实体给识别出来。这个过程是不是很像在一串珍珠项链里面识别出宝贵的珍珠(这个比喻笔者觉得只能算凑合)。

NER任务简介

NER是一个序列标注任务,和分词,词性标注的任务属同一类。任务的输入是一串序列,输出也是一串序列。例子如下:
输入:[北,京,天,气,真,不,错]
输出:[1,2,0,0,0

おすすめ

転載: blog.csdn.net/wenyusuran/article/details/107332892