CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition
总结
作者提出了基于注意力机制的卷积神经网络架构,用于中文命名实体识别。
主要的框架是CNN with the local-attention
和Bi-GRU with global self-attention
总体的框架图如下:
Convolutional Attention Layer
字符的嵌入输入
x
x=[xch;xpos;xseg]
xch代表word2vec的词向量
xpos: 代表local context position。CNN的windows size是
k,
xpos的维度为
k,独热编码表示
xseg:作者说是由BMES模式编码的分词信息,没有具体解释
-
local attention步骤
cnn windows有k个元素,
xj−2k−1,...xj....xj+2k+1
s(xj,xk)=vTtanh(W1xj+W2xk)
v∈RdhW1;W2∈Rdh;de
αm=∑n∈{j−2k−1,...,j−2k+1}exp s(xj;xn)exps(xj,xm)
hm=αmxm
-
卷积步骤
hjc=∑k[Wc∗hj−2k−1,...,j−2k+1+bc]
典型的卷积操作,只不过是最后sum pooling layer
BiGRU_CRF with global Attention
跟BiLSTM+CRF没有什么区别,主要是加了一个中间加了一个global attention
与上面的local attention类似,只不过范围不再是cnn的windows size,而是针对
整个序列