第三篇:Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings

一、本文主要内容

  1、(语标代替字母)问题:(1)中文命名实体识别中存在拼写错误、新词、不符合语法的结构;(2)缺乏明确的边界;(3)词切分糟糕;(4)典型的语料库只使用简体或繁体,但是社交媒体是混合的;(5)基于word的embedding,并不能在下游任务中有用;

  2、先前技术:(1)CRF with BIOSE encoding,标记单个字符,而不是单词,因为分词错误对NER影响很大;利用地名索引的特征,仅仅只提升了一些任务分数;(2)词汇嵌入表示单词,可以大大提升NLP的相关任务,尤其是在NER中;预训练神经嵌入(pre-trained neural embeddings)作为特征加入NER系统中,也提升了效果;

  3、本文首先使用三种类型的中文嵌入:

Word Embeddings 、Character Embeddings 、Character and Position Embeddings 

179,809 word embeddings, 10,912 character embeddings, and 24,818 character with position embeddings。

  其次,利用NER的训练文本,对embedding进行微调;使用预训练模型初始化embedding参数,然后在根据梯度下降过程中修改参数。

  最后,Joint Training Objectives;由于对embedding进行微调会使得embedding偏离原始的含义,于是这里用到了合并目标函数的方法,即将NER任务的目标函数和训练embedding的目标函数结合起来,具体公式如下:

CRF模型的目标函数

扫描二维码关注公众号,回复: 10655737 查看本文章

 标准skip-gram的目标函数

 其中

 最后的目标函数是两者的加权,训练目标是使得下式最大,这里C是一个平衡参数,本文的实验中将其设为1。

二、相关训练工作

  embedding 100维、CRF迭代30次、5个多线程同时通过skip gram目标函数、避免过拟合使用early-stopping、C=1(后期使用这个C优化联合训练的目标函数)、CRF使用SGD和L2正则、现有的word2vec工具训练语言模型、最后用自己的CRF去修改嵌入

  person, organization, location and geo-political entity四种实体

三、个人想法

中文的命名实体识别主要是针对比较规范的文本来进行的,对于中文社交媒体如微博这类比较不规范的文本,相关工作并不是很多。对于命名实体识别任务来说,基于统计机器学习的方法有隐马尔可夫模型、最大熵模型、条件随机场等,现在神经网络的方法也被用到序列标注问题中来,从而能够解决命名实体识别的问题。

  1、使用word2vec训练语言模型,是否可以使用BERT、ALBERT等现在新进的替换,再看效果?

  2、该文主要是解决了社交媒体的命名实体识别,在金融行业上是否一样实用?

  3、对消歧有什么值得借鉴的嘛?好像没什么。。。。

  4、该文主要是通过联合词嵌入,一起训练CRF,将不规则的微博中的命名实体识别出来,作者已开源相关代码和数据,可以细看(golden-horse

猜你喜欢

转载自www.cnblogs.com/xujia-go/p/12672503.html