利用BERT进行命名实体识别(NER)

作者:禅与计算机程序设计艺术

1.简介

命名实体识别(Named Entity Recognition,NER)是自然语言处理领域的一个子任务,其目的是从文本中提取出命名实体并给予其正确的分类或类型。目前最流行的方法之一是基于规则的NER方法,如正则表达式、字典词典等,这种方法需要大量的训练数据、手动标注和较高的准确率。另一种方法则是基于机器学习的NER方法,如CRF、LSTM-CRF等,这些方法在准确率上都有很大的提升,但仍需大量的训练数据。

BERT,Bidirectional Encoder Representations from Transformers,一种基于神经网络的预训练模型,可以用于各种自然语言处理任务,尤其是文本序列的表示学习。本文将使用BERT做命名实体识别的研究。

1.1 BERT的介绍及特点

BERT,Bidirectional Encoder Representations from Transformers,一种基于神经网络的预训练模型,其主要特点有以下几点:

  1. 它是一个双向预训练模型
  2. 用Masked Language Model(MLM)的方式进行预训练,通过随机mask掉一些词,然后让模型来猜测被mask掉的那个词。
  3. 引入了额外的句子顺序信息和Token类型的Embedding
  4. 可以同时处理短语级和句子级任务
  5. 轻量级的模型体积和计算速度

1.2 NER任务的介绍

命名实体识别(NER),即识别文本中的人名、地名、机构名、团体名等专有名词,并且给每个实体指定相应的类别标签。一般而言&#x

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/132288989
今日推荐