第六篇：Character-Based LSTM-CRF with Radical-Level Features for Chinese Named Entity Recognition

一、本文主要内容

　　中文的命名实体识别的一个双向LSTM-CRF模型，作者找到了最适合中文的LSTM block块，汉语中存在着较复杂的性质，如缺乏词界、复杂的构成形式、不确定长度、NE嵌套定义等，应用在CNER中的方法：最大熵、隐马尔可夫模型、支持向量机、条件随机场算法等。

　　基于字符的标记策略在没有中文分词（CWS）结果的情况下取得了相当的性能，这说明中文的NER任务，基于单个汉字是可以做到很好的效果，分词在一定程度上存在误差。

　　作者分析了一下相关的NER任务的做法，然后发现基于字根的做法很少，而且是基于字根做embedding，于是作者就采用字符级的LSTM（基于字根），进而去做CNER。前一个图是基于字符级的LSTM，后一个是基于字根的一个LSTM

　　字根的发现，可以在新华字典中找到，a radical-level bidirectional LSTM to capture the radical information ，上图显示我们如何获得字符的最终输入嵌入。

　　序列标记，采用IOBES

　　预训练词向量，采用CBOW训练

二、相关工作

　　dropout training 大小为0.5，back-propagation 算法更新训练参数，用SGD算法以及0.5到50的学习率在训练集上。维度测试为三种：50、100、200

三、个人想法

　　1、字符级的BI-lstm-crf，效果比基于词的双向LSTM-crf要好。

　　2、本文扩展了一个新思路，就是词根，但是词根的效果，比预训练词嵌入的效果要差一点，可以将这个再优化或者结合在预训练的词嵌入或者字符嵌入中。

　　3、将字进行分解，然后，将分解后的词根作为输入，输入到BI-LSTM，再生成这个字的embedding。

　　4、中文、英文的NER任务，方法略有不同，可以多看几篇后进行总结分析

　　5、本文也采用的IOBES标记法，这个标记比IBO更能体现实体的前后关系。