【Lectura intensiva de artículos】MELM: Aumento de datos con modelado de lenguaje de entidad enmascarada para NER de bajos recursos

prefacio

Un artículo de ACL2022 utiliza un método de aumento de datos para resolver el problema NER en escenarios de bajos recursos. El método es único y novedoso, y combina la serialización de etiquetas y contexto al mismo tiempo. Se aplica ya sea que el modelo sea pequeño o grande.


Abstracto

El aumento de datos es una solución eficaz para la escasez de datos en escenarios de bajos recursos. Pero en las tareas de NER, el aumento de datos generalmente sufre una desalineación de la etiqueta del token, lo que resulta en un rendimiento degradado. Este documento propone el modelado de lenguaje de entidad enmascarada (MELM) como un nuevo marco de aumento de datos en NER de bajos recursos. Para aliviar el problema de ubicación incorrecta de la etiqueta del token, el autor inyecta explícitamente etiquetas NER en el contexto de la oración, por lo que el MELM ajustado puede predecir el token de entidad de la máscara al mostrar la etiqueta del token de condicionamiento. Esto permite a MELM generar datos mejorados de alta calidad para mejorar el rendimiento de NER. Además, los autores demuestran la efectividad de MELM en NER monolingüe, multilingüe y multilingüe en varios escenarios de bajos recursos.

1. Introducción

Como subtarea de extracción de información, NER es una parte clave de la recuperación de información, los sistemas de respuesta a preguntas y los sistemas de resumen de texto, pero la mayoría de las etiquetas de datos de escena son limitadas.
Debido al alto costo de construir manualmente suficientes datos etiquetados, NER en escenarios de bajos recursos ha atraído una gran atención Como método efectivo para resolver la escasez de datos en escenarios de bajos recursos, el aumento de datos expande el conjunto de entrenamiento al realizar transformaciones invariantes de etiquetas en los datos. Los métodos típicos de aumento de datos de NLP incluyen:

  1. modificación del nivel de palabra;
  2. traducción inversa.

Sin embargo, la modificación a nivel de palabra hará que la entidad reemplazada no coincida con la etiqueta original, y la retrotraducción se basa en herramientas externas de alineación de palabras, que es propensa a errores. Para usar el aumento de datos para tareas a nivel de token, Dai y Adel propusieron reemplazar aleatoriamente las menciones de entidades con entidades existentes del mismo tipo, lo que evita el problema de desajuste de tokens, pero la diversidad de entidades no aumenta. La mejora es muy importante para el modelo. Solo mejoras leves.
imagen.png
Los experimentos de la figura anterior también muestran que diversificar entidades en los datos de entrenamiento es más efectivo que diversificar el modelo de contexto. Inspirándose en esto, los autores proponen MELM como un marco de aumento de datos para NER de bajos recursos, que alivia el desafío de la desalineación de etiquetas. MELM se basa en el MLM preentrenado, y solo las etiquetas de entidad se ajustan con precisión en las oraciones de entrenamiento de la máscara, lo cual es conveniente para el reemplazo de tokens orientado a entidades. Para evitar el problema de la inconsistencia en el reemplazo de etiquetas de entidad, tome la siguiente figura b como ejemplo, la salida se ajusta al contexto pero es inconsistente con la etiqueta original.Para aliviar el problema de desalineación, MELM introduce una linealización de secuencia de etiquetas estrategia, insertando una etiqueta antes y después de cada etiqueta de entidad , e inserte los marcadores como marcadores contextuales normales al modelar MLM. De esta forma, el token de la máscara no solo depende del contexto, sino que también depende de la etiqueta de la entidad.
imagen.png
Después de inyectar información de etiquetas y ajustar los datos NER mejorados con etiquetas, MELM puede usar el rico conocimiento en el entrenamiento previo para aumentar la diversidad de entidades y reducir en gran medida la desalineación de etiquetas de tokens. Además, MELM se puede aplicar en escenarios NER multilingües de bajos recursos para obtener mayores ganancias de rendimiento. El autor primero reemplaza la entidad en la oración del idioma de origen con el mismo tipo de entidad de idioma extranjero (lo que hará que el token no sea adecuado para el contexto), y luego propone un algoritmo de búsqueda de similitud de entidades basado en incrustaciones bilingües, que recupera el más similar. la semántica de las entidades de entrenamiento en otros idiomas y, finalmente, después de agregar etiquetas de idioma en los datos de idiomas mixtos, el ajuste fino de MELM puede generar más datos aumentados de idiomas mixtos.
Las principales contribuciones de este trabajo son las siguientes:

  1. Proponer un marco novedoso para el aumento de datos basado en entidades usando etiquetas de contexto y de entidad conjuntamente;
  2. La estrategia de linealización de la secuencia de etiquetas propuesta alivia eficazmente el problema de la desalineación de las etiquetas de los tokens durante el proceso de mejora;
  3. Para realizar el aumento de datos en escenas multilingües, se propone un algoritmo de búsqueda de similitud de entidades.

2. Método

La figura c anterior muestra el flujo de trabajo del marco de aumento de datos, y el siguiente es el pseudocódigo del algoritmo.
imagen.png
Los pasos del algoritmo son los siguientes:

  1. En primer lugar, linealice la secuencia de anotaciones e inserte la etiqueta de entidad en la oración de entrenamiento NER;
  2. Luego ajuste MELM en la secuencia linealizada para crear datos aumentados generando diferentes entidades;
  3. Los datos mejorados se combinan con los datos originales para entrenar el modelo NER.

Además, se propone un algoritmo de búsqueda de similitud de entidades en escenarios multilingües, y MELM se aplica a datos de entrenamiento y datos de código mixto para mejorar aún más el rendimiento.

2.1 Linealización de secuencias etiquetadas

Los autores agregan etiquetas antes y después de cada etiqueta de entidad como etiquetas contextuales normales. Las secuencias lineales resultantes se usaron para afinar aún más MELM de modo que sus predicciones dependieran adicionalmente de los marcadores de etiqueta insertados. Tenga en cuenta que la elección de etiquetas es semánticamente similar a las clases de entidad, por ejemplo, "organización" se representa mediante etiquetas. De esta manera, la secuencia de linealización puede ser semánticamente más cercana a las oraciones naturales y reducir la dificultad de afinar.

2.2 Ajuste fino de MELM

A diferencia de MLM, solo los tokens de entidad se enmascaran durante la fase de ajuste. En la etapa inicial, los tokens de entidad se enmascaran aleatoriamente con una determinada proporción. Ingrese la oración enmascarada, MELM está capacitado para maximizar la probabilidad de ser etiquetado por la entidad enmascarada y reconstruir la secuencia de linealización XXX
max ⁡ θ Iniciar sesión ⁡ pags θ ( X ∣ X ~ ) ≈ ∑ yo = 1 nmi Iniciar sesión ⁡ pags θ ( xi ∣ X ~ ) \max _{\theta} \log p_{\theta}(X \mid \ tilde{X}) \approx \sum_{i=1}^{n} m_{i} \log p_{\theta}\left(x_{i} \mid \tilde{X}\right)máximoiiniciar sesiónpagi( XX~ )yo = 1nmetroyoiniciar sesiónpagi( XyoX~ )
Entre ellos,θ \thetaθ es el parámetro de MELM,xi x_iXyoes XXFicha original de X , mi m_imetroyoUn valor de 1 o 0 significa xi x_i respectivamenteXyoEnmascarado o no enmascarado, a través del proceso de ajuste fino anterior, MELM aprende a usar el contexto y la información de la etiqueta para predecir el token de entidad de la máscara.

2.3 Generación de datos

Dada una oración enmascarada, MELM genera la probabilidad de que cada token enmascarado se prediga como un token en el vocabulario. Para evitar que el token predicho sea el mismo que el token enmascarado original, el autor muestrea y reemplaza aleatoriamente desde la parte superior k resultados más probables. Después de obtener las secuencias generadas, los autores eliminan los marcadores de etiquetas y usan el resto para aumentar los datos de entrenamiento.
Para aumentar la diversidad de datos aumentados, se adopta una estrategia de enmascaramiento diferente a la utilizada en el entrenamiento. Para una mención de entidad que contiene n etiquetas, el autor parte de la distribución gaussiana N ( μ , σ 2 ) \mathcal{N}(\mu, \sigma^2)norte ( μ ,pag2 )Seleccione aleatoriamente una tasa de máscara dinámica, donde la varianza gaussianaσ 2 \sigma^2pag2 se establece en1 n 2 \frac{1}{n^2}norte21, de modo que la misma oración generará diferentes datos aumentados en diferentes rondas.

2.4 Posprocesamiento

Para eliminar el ruido y las muestras menos informativas en los datos mejorados, al modelo NER entrenado en el conjunto de datos original se le asignan etiquetas a las oraciones mejoradas, y solo se retienen las oraciones mejoradas cuyas etiquetas predichas son consistentes con las etiquetas originales. Vuelva a entrenar el modelo NER con las oraciones procesadas.

2.5 Ampliación a escenarios multilingües

Se ha demostrado que MELM tiene un mayor potencial en escenarios multilingües. En este documento, para fusionar el aumento de datos y la combinación de códigos, se propone un algoritmo de similitud de entidades para realizar MELM compatible con la combinación de códigos.
Específicamente, dado un conjunto de lenguajes L \mathbb{L}El conjunto dorado de entrenamiento en L { D tren ℓ ∣ ℓ ∈ L } \left \{ \mathbb{D}^{\ell}_{\mathrm{tren} } | {\ell} \in \mathbb{L} \ bien \}{ retrenL } , primero recopila el conjunto de entidades etiquetadas. Para aplicar la combinación de código en el idioma de origen, el autor reemplaza la mención de la entidad del idioma de origen con la misma etiqueta con la entidad del idioma de destino, donde la muestra del idioma de destino es ℓ tgt ∼ U ( L ∖ { ℓ src } ) {\ell}_ {tgt} \ sim \mathcal{U} \left ( \mathbb{L} \setminus \left \{ \ell_{\mathrm{src} } \right \} \right )t g ttu( L{ origen} ) . Por supuesto, el muestreo no es un muestreo aleatorio, sino la selección de la entidad con la mayor similitud semántica con la entidad fuente para su recuperación. En aplicaciones específicas, se introduce la capa de incrustación de lenguaje dual MUSE, y la incrustación de la entidad se calcula mediante la incrustación del token de entidad promedio:
Emb ⁡ ( e ) = 1 ∣ e ∣ ∑ i = 1 ∣ e ∣ MUSE ⁡ ℓ src , tgt ( ei ) \ operatorname{Emb}(\mathbf{e})=\frac{1}{|\mathbf{e}|} \sum_{i=1}^{|\mathbf{e}| } \operatorname{MUSE}_{ \ell_{\mathrm{src}},_{\mathrm{tgt}}}\left(\mathbf{e}_{i}\right)Emb ( e )=mi 1yo = 1miMUSAorigen,tgt( miyo)
Entre ellos,ei \mathbf{e}_{i}miyoRepresenta el i-ésimo token de la entidad de dominio de origen y luego obtiene lo mismo que e \mathbf{e}La entidad del idioma de destino esub \mathbf{e}_{sub}con la semántica más cercana a emisu b _De la siguiente manera:
esub = argmax ~ ∈ E ℓ tgt , yf ( E mb ( e ) , E mb ( e ~ ) ) \mathbf{e}_{sub}=\mathrm{argmax}_{\tilde{\mathbf{ e }} \in \mathbb{E}^{\ell _{tgt}, y} }f(\mathrm{Emb}(\mathbf{e}), \mathrm{Emb}(\tilde{\mathbf{e } }))misu b _=argmaxmi~mit g t, tuf ( Emb ( e ) ,Emb (mi~ ))
La función f es la similitud del coseno, y la entidad de salida se usa para reemplazar la entidad de origen para la mejora de datos. Dado que los datos de entrenamiento actuales contienen entidades en varios idiomas, se agregan etiquetas de idioma para ayudar a MELM a distinguir entre diferentes idiomas, como se muestra a continuación:
imagen.png

3. Experimentos

Para evaluar exhaustivamente la eficacia de MELM en escenarios de bajos recursos, se consideran tres escenarios: monolingüe, multilingüe de muestra cero y escenarios multilingües de bajos recursos.

3.1 Conjunto de datos

El experimento se lleva a cabo en el conjunto de datos CoNLL NER, que contiene cuatro idiomas: inglés, alemán, español y holandés. Para cada idioma, primero muestree el NN del conjunto de datos completoN oraciones, dondeN ∈ { 100 , 200 , 400 , 800 } N \in \left \{ 100, 200, 400, 800 \right \}norte{ 100 ,200 ,400 ,800 } se utilizan para simular diferentes escenarios de bajos recursos. El mismo conjunto de verificación de escena de bajo recurso, el tamaño del conjunto de prueba también esNNnorte _

3.2 Escenario Experimental

Ajuste fino de MELM: el autor usa XLM-RoBERTa-base para inicializar los parámetros de MELM, y MELM usa Adam para ajustar 20 rondas.
Modelo NER: el autor utiliza XLM-RoBERTa-Large con CRF como modelo NER.
Ajuste fino de hiperparámetros: Ajuste mediante búsqueda en cuadrícula.

3.3 Métodos de línea de base

Para profundizar en la efectividad del método MELM, se realiza una comparación con los siguientes métodos:
Gold-Only: el modelo NER solo se entrena con los datos de entrenamiento originales.
Reemplazo de etiquetas: seleccione aleatoriamente entidades del mismo tipo para reemplazar el conjunto de datos original.
MLM-Entity: Etiquetado de entidad de máscara aleatoria, utilizando directamente MLM preentrenado para la expansión de datos, en lugar de ajustar y etiquetar linealización de secuencia como MELM.
DAGA: primero serialice etiquetas en oraciones de entrada, luego entrene un modelo de lenguaje autorregresivo. El modelo se utiliza para sintetizar datos aumentados desde cero.
MUIDA: ajuste fino de mBART en datos NER multilingües linealizados para generar datos aumentados con nuevos contextos y entidades.

3.4 Resultados Experimentales

3.4.1 NER monolingüe y multilingüe

imagen.png
Como se muestra en el lado izquierdo de la figura anterior, MELM logra el mejor desempeño en diferentes escenarios de bajos recursos, demostrando su efectividad en NER monolingüe. Los resultados NER multilingües se muestran en el lado derecho de la tabla, logrando también el mejor rendimiento.
En comparación con MELM, MELM sin linealizar tiene una gran caída de rendimiento, lo que demuestra que inyectar información de etiqueta a través de la linealización ayuda a MELM a distinguir diferentes tipos de entidades y generar entidades compatibles con la etiqueta original.
Además, se encuentra que el método de reemplazo de etiquetas de escena monolingüe funciona mal en muchos datos, la posible razón es que la diversidad de entidades no aumenta y, además, reemplazar entidades aleatoriamente causará incompatibilidad entre el contexto y las entidades, lo que generará ruido. al entrenamiento.
Aunque MELM-Entity intenta usar el MLM preentrenado para generar nuevos tokens adecuados para el contexto, las etiquetas generadas pueden no ser consistentes con las originales.Además, MELM realiza mejoras de datos a través del modelo preentrenado.
Al mismo tiempo, MELM combina la estrategia de serialización de etiquetas y, a través de la guía de la información de la etiqueta, alivia en gran medida el problema de la desalineación de la etiqueta del token.
Si bien DAGA funciona bien en escenarios de altos recursos, no lo hace bien en escenarios de bajos recursos, lo que puede deberse al hecho de que las oraciones regeneradas por el modelo de lenguaje no entrenado no son fluidas ni gramaticales.

3.4.2 NER multilingüe

imagen.png
Los autores primero aplican MELM a la unión de conjuntos de datos multilingües. Como se puede ver en la tabla anterior, MELM ha logrado una mejora sustancial en comparación con Gold-only. El autor compara con el método MulDAG como línea de base para la mejora de datos MulDAG utiliza el modelo autorregresivo mBART para generar datos mejorados, que se ajustan en los datos NER marcados por la etiqueta de inserción. Los resultados muestran que MulDAG puede conducir a una degradación del rendimiento, principalmente debido a la discrepancia entre el entrenamiento previo y el ajuste fino causado por la inserción de marcadores de etiquetas.
Tanto Code-Mix-random como Code-Mix-ess logran un mejor rendimiento que Gold-only, y Code-Mix-ess puede brindar una mejora más significativa que Code-Mix-random en escenarios de recursos más bajos, lo que indica que la eficacia de la entidad Algoritmo de búsqueda de similitud.

4. Análisis adicional

4.1 Estudio de caso

imagen.png
La tabla anterior muestra los 5 mejores ejemplos predichos de MLM preentrenado, MELM sin linealizar y MELM. Se puede ver que MLM tiende a generar palabras de alta frecuencia y la mayoría de las palabras generadas no pertenecerán a la clase de entidad original. Por el contrario, MELM sin linealizar puede generar tokens relacionados con la entidad, pero es fácil provocar una desalineación de la etiqueta del token. MELM considera tanto la información de la etiqueta como el contexto para generar más etiquetas que sean adecuadas al contexto y estén alineadas con las etiquetas originales. Además, MELM aprovecha el modelo preentrenado para generar entidades que no existen en el NER original, esencialmente aumentando la diversidad de entidades.

4.2 Número de entidades únicas

imagen.png
Para probar que la introducción de entidades invisibles puede proporcionar más conocimiento de la regularidad de la entidad y ayudar a mejorar el rendimiento del NER. La figura anterior es el resultado experimental, que muestra que MELM introduce una gran cantidad de entidades invisibles, por lo que MELM puede proporcionar un conocimiento de regularidad más rico, lo que explica por qué es mejor que la línea de base.

5. Trabajo relacionado

Una serie de métodos de mejora de datos se basan en la modificación a nivel de palabra, incluido el modelo de lenguaje LSTM, MLM, LM de preentrenamiento autorregresivo, etc. Estos métodos provocarán la desalineación de las etiquetas y requerirán operaciones complejas para la reducción de ruido.
Además, parte del trabajo utiliza la traducción de idiomas para preservar la semántica general de la oración original, pero se basa en herramientas externas de alineación de palabras para la propagación de etiquetas, que es propensa a errores.

6. Conclusión

MELM utiliza la linealización de la secuencia de etiquetas para aliviar de manera efectiva el problema de ubicación incorrecta de la etiqueta del token, y las entidades generadas se ajustan al contexto y pueden usar el conocimiento previo al entrenamiento para generar datos mejorados con nuevas entidades. En entornos multilingües, MELM y la combinación de códigos se combinan para mejorar aún más el rendimiento.

leer resumen

Un artículo que amplía los datos para mejorar el rendimiento del modelo en escenarios de bajos recursos. Basado en MLM, el MELM diseñado por el autor solo enmascara entidades y agrega etiquetas de entidad mientras usa contexto, evitando etiquetas de token. El problema de la inconsistencia, mientras que el token obtenido por el cálculo de similitud semántica mantiene la consistencia del contexto. Lo más destacado del artículo es que la idea de la mejora de datos es clara y convincente, y el experimento también puede explicar bien los resultados. El aumento de datos es de hecho una buena manera de obtener más datos en escenarios de bajos recursos Incluso en escenarios de LLM, el diseño de avisos requiere un determinado conjunto de datos, por lo que vale la pena aprender este método en escenarios de LLM de bajos recursos.

Supongo que te gusta

Origin blog.csdn.net/HERODING23/article/details/130655680
Recomendado
Clasificación