keras+lstm+crf 名前付きエンティティの認識

少し前に crf++ ツールを使用して名前付きエンティティ認識を実行しましたが、今回は keras の keras_contrib を lstm と組み合わせて使用​​してみました。

keras_contrib の使用に関する質問については、https://blog.csdn.net/m0_49621298/article/details/115535976を参照してください。

1. オペレーティングシステム

窓10

2、バージョン

Python 3.6.5、TensorFlow 2.1.0、Keras 2.3.1

3.生データの処理工程

前の処理と同じです。詳細については、 https://blog.csdn.net/m0_49621298/article/details/109896619を参照してください。

今回起動したファイルの内容は以下のtrain.txtで、3列は単語分割、品詞、ラベル、単語分割、入力用品詞です。

初步统计    l  o
,  w  o
全市 n  o
国内生产总值 nz w
达  v  o
1020   m  o
亿元 q  o
,  w  o
按  p  o
可比价格   n  o
计算 v  o
,  w  o
比  p  o
上年 t  o
增长 v  o
12.2   m  o
%  nx o
   w  o
第一 mq b
产业 n  m

4. 特徴とラベル加工

vocab1=list(set([j[0] for i in data for j in i]))
word_idx1 = dict((w, i+2) for i, w in enumerate(vocab1))#分词的词典
x1 = [[word_idx1.get(w[0], 1) for w in s] for s in data] # 转化为整数,字典中没有的词设置为1   dict.get(key, default=None)
x1 = pad_sequences(x1, maxlen)#特征1
vocab2=list(set([j[1] for i in data for j in i]))
word_idx2 = dict((w, i+2) for i, w in enumerate(vocab2))#词性的词典
x2 = [[word_idx2.get(w[1], 1) for w in s] for s in data]
x2 = pad_sequences(x2, maxlen)#特征2
x1=np.array(x1)
x2=np.array(x2)
y_vocab=list(set([j[2] for i in data for j in i]))
y2idx = dict((w, i+2) for i, w in enumerate(y_vocab))#标签的词典
y = [[y2idx.get(w[2], 1) for w in s] for s in data]
y = pad_sequences(y, maxlen)
y = np.expand_dims(y, 2)

5. モデルを構築する

特徴 1 (単語分割) と特徴 2 (品詞) はそれぞれ Embedding で、最初の層にマージされます。中間層は双方向 lstm、出力層は crf です。

word_embedding_layer = Embedding(len(vocab1)+2,32,input_length=maxlen)(word_input)
pos_embedding_layer = Embedding(len(vocab2)+2,10,input_length=maxlen)(pos_input)
emb= concatenate([word_embedding_layer, pos_embedding_layer], axis=-1)#融合层
lstm = Bidirectional(LSTM(64, return_sequences=True))(emb)
crf = CRF(len(y_vocab)+2, sparse_target=True)
out = crf(lstm)
model = Model([word_input, pos_input], out)

6. コンパイル、トレーニング、保存、予測

model.compile(optimizer="rmsprop", loss=crf.loss_function, metrics=[crf.accuracy])
model.fit([x1,x2], y,batch_size=16,epochs=5,verbose=2)
model.save('./model/mymodel')
print(y[:10])
print(np.argmax(model.predict([x1[:10],x2[:10]]), axis=-1))

 損失: 0.0624 - crf_viterbi_accuracy: 0.9763 - val_loss: 0.0706 - val_crf_viterbi_accuracy: 0.9718

正解率は97%で、f1とリコール値は計算されていません~

コードの詳細については、https://blog.csdn.net/m0_49621298/article/details/115585857を参照してください。

おすすめ

転載: blog.csdn.net/m0_49621298/article/details/115585346