Notas de papel: NER chino con Lattice LSTM

Visión de conjunto:

Actualmente, NER inglés: el mejor modelo es LSTM-CRF (Lample et al., 2016; Ma y Hovy, 2016; Chiu y Nichols, 2016; Liu et al., 2018).

NER chino: este modelo también se puede utilizar, pero el NER chino está relacionado con la segmentación de palabras. Una forma intuitiva de implementar la NER china es realizar primero la segmentación de palabras y luego aplicar el etiquetado de secuencia de palabras. LSTM-CRF basado en el nivel de carácter no puede usar información de palabras en oraciones.

Desventajas de charNER: la información clara de palabras y secuencias de palabras puede tener un valor potencial, pero no se utiliza. Los estudios han demostrado que en la NER china, los métodos basados en caracteres funcionan mejor que los métodos basados en palabras (He y Wang, 2008; Liu et al., 2010; Li et al., 2014).

Sin embargo, el proceso de segmentación → NER puede encontrar problemas potenciales con la propagación de errores, porque el NE es una fuente importante de OOV en la segmentación, y la segmentación del límite de entidad incorrecto provocará errores de NER. Sin embargo, si se basa en el tokenizador, una vez que la NER tenga un error de segmentación de palabras, afectará directamente la predicción del límite de la entidad y provocará errores de reconocimiento, lo que constituye un problema grave en campo abierto.

motivación:

Lattice LSTM se utiliza para caracterizar la palabra del léxico (Nanjing, Nanjing, Mayor ...) en la oración, para integrar la información de la palabra potencial en el LSTM-CRF basado en caracteres. Debido a que hay un número exponencial de rutas de palabras y caracteres en la cuadrícula, los investigadores utilizan la estructura de celosía LSTM para controlar automáticamente el flujo de información desde el principio hasta el final de la oración. Como se muestra en la Figura 2, la unidad de control se utiliza para transmitir información dinámicamente desde diferentes rutas a cada carácter y no se verá afectada por la desviación de la segmentación de palabras.

Figura 1: Estructura Lattice LSTM

Modelo general:

El modelo general se divide en 3 partes: (a) modelo basado en caracteres; (b) modelo basado en palabras; (c) modelo de celosía

(A): modelo basado en personajes

Entre ellos, la capa Embed puede tener los siguientes métodos:

① Char incrustación

② Char + bichar incrustación

Combine la incrustación de un solo carácter con la incrustación de Bigram compuesta por el carácter actual y el siguiente carácter para formar la incrustación general

③ Char + incrustación de softword

Combine la incrustación de un solo carácter y la incrustación del segmento donde se encuentra el personaje actual para formar la incrustación general

(b): modelo basado en Word

Incrustación de wi:

Del mismo modo, en la capa de incrustación, la incrustación de la palabra también debe combinarse con la incrustación del carácter contenido en la palabra, es decir

También hay varias formas de incorporar char en la palabra actual:

① palabra + char LSTM

Utilice la estructura BiLSTM para incorporar todos los caracteres en la palabra

② palabra + char LSTM '

Pero LSTM es ligeramente diferente de ①

③ palabra + char CNN

Utilice una CNN estándar para convertir todos los caracteres incrustados en la palabra actual

(c): modelo de celosía

En el modelo basado en caracteres, se agregan celdas basadas en pares de vocabulario y puertas adicionales para controlar el flujo de información.

La entrada del modelo son todas las palabras contenidas en el vocabulario D que consta de todos los caracteres y secuencias de caracteres. El modelo incluye 4 tipos de vectores, a saber: ① vector de entrada; ② vector oculto de salida; ③ vector de celda; ④ vector cerrado

La unidad básica de LSTM correspondiente al personaje es:

La fórmula de expresión celular del LSTM correspondiente al vocabulario es:

Esta celda de palabra no tiene una puerta de salida, porque la tarea de etiquetado final es para char en lugar de word.

Para el carácter final de una palabra, puede haber varias rutas, como la palabra "Puente", y la información de la palabra de varias rutas, como "Puente" y "Puente de Nanjing", fluye hacia la representación del carácter "Puente", así que separe Usa un extra para controlar el peso de cada palabra: