[Lectura intensiva de artículos] FSUIE: un nuevo mecanismo difuso para la extracción de información universal

prefacio

Un trabajo de ACL 2023, sobre el contenido del modelo de extracción de información general, no utiliza el método popular actual de ajuste fino del modelo generativo grande para extraer información, sino que se basa en el modelo de bert más simple, en la función de pérdida y atención Hacer un escándalo por el mecanismo es un trabajo del que vale la pena aprender.


Papel: https://arxiv.org/pdf/2306.14913.pdf
Código: https://github.com/pengts/fsuie

Abstracto

El modelo UIE existente se basa en gran medida en el tramo límite, es decir, el modelo es muy sensible a los errores de etiquetado de límites de datos y rara vez presta atención a las características de la longitud del tramo extraído. Este documento propone un marco de extracción de información general de tramo difuso (FSUIE ), que incluye dos partes: Fuzzy Span Loss y Fuzzy Span Attention . La parte experimental demuestra que el modelo funciona bien en los escenarios de velocidad de convergencia y muestra pequeña.

1. Introducción

La extracción de información se centra en extraer información estructurada de un texto no estructurado, como el reconocimiento de entidades nombradas, la extracción de relaciones y la extracción de emociones. La extracción de información universal consiste en modelar las tareas anteriores en un marco unificado. El modelo generativo requiere mucho tiempo y el efecto no es el ideal. Este documento estudia el UIE basado en intervalos para unificar varias tareas de IE y transformar tareas de IE en predicciones de intervalo.
imagen.png
Pero el modelo UIE todavía tiene las siguientes limitaciones:

  1. Confíe en la información y el alcance del etiquetado manual (consulte la figura anterior), pero el etiquetado manual es propenso a la ambigüedad.
  2. En la tarea de aprendizaje de tramos, la función de pérdida adopta el método obligatorio del profesor, que es fácil de causar cuellos de botella en el rendimiento debido a anotaciones inexactas.
  3. El modelo pone demasiado énfasis en los límites precisos, lo que conducirá a una utilización insuficiente de la información de supervisión. De hecho, algunos tramos están borrosos. Como se muestra en la figura anterior, "coche", "coche deportivo" y "coche deportivo amarillo". son todos la misma entidad.
  4. El modelo preentrenado y la extracción de intervalos son inconsistentes en las tareas, el primero se enfoca en todos los textos y el segundo se enfoca en textos específicos.

En este documento, se propone FSUIE para abordar las limitaciones anteriores mediante la aplicación de funciones de intervalo difuso y el ajuste del intervalo del mecanismo de atención. Específicamente, la pérdida de intervalo difuso está diseñada para cuantificar la precisión de las distribuciones en intervalos difusos, y la atención de intervalo difuso está diseñada para establecer el intervalo de atención en el intervalo difuso y ajustar de forma adaptativa la longitud del intervalo de acuerdo con la codificación. En la parte experimental, solo el uso del modelo bert-base ha alcanzado las pruebas de referencia SOTA de NER, RE y ASTE, y tiene las características de alta velocidad de convergencia y buena capacidad de generalización en escenarios de muestra pequeña.

2. FSUIE

2.2 Pérdida de tramo difuso (FSL)

FSL es complementario a la pérdida tradicional de maestros (entropía cruzada), guiando al modelo para que aprenda a desdibujar los límites. El desafío es cómo cuantificar la distribución de la información correcta en los límites borrosos. La distribución tradicional solo presta atención al límite exacto, este documento propone el Generador de distribución de tramo difuso (FSDG), que utiliza la distribución de probabilidad del límite de tramo para representar el valor real, que incluye dos pasos:

  1. Determinar la función de distribución de densidad de probabilidad fff .
  2. basado en fff asigna una distribución continua a una distribución discreta.

Específicamente, sea q ∈ S q \in SqS es el límite del intervalo de etiquetas, entonces la expectativa de su límite difuso correspondiente es:
q ^ = ∫ R min R maxx Q ( x ) dx , q ∈ S \hat{q}= \int_{R_{min}} ^{R_ {máx}}xQ(x)dx, \, \,q\en Sq^=RminutoRmáximo _x Q ( x ) d x ,qS
dondexxx representa el rango de límite difuso[ R min , R max ] [R_{min},R_{max}][ Rminuto,Rmáximo _] ,R min R_{min}Rminutoy R máx R_{máx}Rmáximo _son las posiciones inicial y final de las coordenadas difusas. qgtq^{gt}qg t representa la posición real de la frontera,Q ( x ) Q(x)Q ( x ) representa la probabilidad de la posición correspondiente.
Por función de mapeoFFF puede asignar límites continuos borrosos a límites discretos, y la distribución de probabilidad de cada límite dado puede expresarse mediante el resultado de la función softmax.
FSUIE elige la distribución gaussianaN ( μ . σ 2 ) N(\mu.\sigma^2)N ( m . s2 )como una función de densidad de probabilidadfff , sus ventajas son:

  1. Continuo y simétrico.
  2. El valor máximo es pequeño, el desplazamiento es pequeño y la distribución es concentrada y estable.
  3. La puntuación es 1 (la razón para inventarlo...).

Para obtener valores discretos q ^ \hat{\mathbf{q}}q^, requiere cuatro parámetros: varianza σ \sigmaσ、均值μ \muμ , paso de muestreosss y el umbral de muestreoθ \thetaθ _ Estos parámetros controlan la extensión, la posición del pico y la densidad de los límites borrosos, respectivamente. Específicamente, la media se establece enqgtq^{gt}qg t , la varianza está predefinida,FFDefina F
de la siguiente manera: F ( qi ) = { ε , ε ≥ θ 0 , ε < θ , ε = f ( μ + ( i − g ) s ) \begin{array}{l} F\left(q_{i }\right)=\left\{\begin{array}{ll} \valuepsilon, &\valuepsilon\geq\theta\\0, &\valuepsilon<\theta\end{array},\right. \\\varepsilon=f(\mu+(ig)s)\end{matriz}F( qyo)={ eh_ _0 ,miimi<i,mi=f ( m+( yog ) s )
θ \thetaθ se usa para filtrar valores en las regiones marginales de la distribución gaussiana porque tienen una probabilidad muy baja. A continuación, los logits pronosticados del modelo y la divergencia KL de la distribución de tramo difuso del núcleo se calculan como la pérdida de tramo difuso. La siguiente figura muestra el límite entre distribuciones exactas y difusas.
imagen.png
Luego, la pérdida de tramo difuso se incorpora a la función de pérdida original de la siguiente manera:
LFS = DKL ( q ^ ∥ p ) = ∑ i = 1 N q ^ ( xi ) ( log ⁡ q ^ ( xi ) p ( xi ) ) L = L ori + λ LFS \begin{alineado} \mathcal{L}_{FS}=D_{KL}(\hat{\mathbf{q}} \| p) & =\sum_{i=1}^{N } \hat{\mathbf{q}}\left(x_{i}\right)\left(\log \frac{\hat{\mathbf{q}}\left(x_{i}\right)}{p \left(x_{i}\right)}\right) \\ \mathcal{L} & =\mathcal{L}_{\text {ori}}+\lambda \mathcal{L}_{FS} \end {alineado}LFS=DK L(q^pag )L=yo = 1norteq^( Xyo)( lo gpag( Xyo)q^( Xyo))=Lori +λL _FS
Entre ellos, p.p representa la distribución predicha del modelo,q ^ \hat{\mathbf{q}}q^Representa la distribución difusa generada, λ \lambdaλ denota el coeficiente de pérdida de tramo difuso.

2.2 Atención de tramo difuso (FSA)

Los autores construyen FSA basándose en un mecanismo de autoatención de varios cabezales con codificación posicional relativa (RPE). Para la posición tt en la secuenciaEl token de t , cada cabeza calcula la matriz de similitud entre el token y el token en la secuencia. fichattt suma ficharrLa similitud entre r
se puede expresar como: str = yt ⊤ W q ⊤ ( W kyr + pt − r ) s_{tr}=y_t^{\top}W_q^{\top}(W_ky_r+p_{tr})st r=ytWq( Wkyr+pagt - r)
Entre ellos,W k W_kWky W q W_qWqes el peso de la clave y la consulta, yt y_tytaño añoyres token ttt suma ficharrRepresentación de r , pt − r p_{tr}pagt - rEs la incrustación de posición relativa. El peso de atención correspondiente se puede obtener a través de la función softmax:
atr = exp ( str ) ∑ q = 0 t − 1 exp ( stq ) a_{tr}=\frac{\mathrm{exp}(s_{tr})}{ \sum_ {q=0}^{t-1}\mathrm{exp}(s_{tq})}at r=q = 0t 1experiencia ( sq)experiencia ( st r)
El mecanismo de extensión difusa de FSA incluye dos aspectos:

  1. Ajuste dinámicamente la duración del período de atención total.
  2. Los pesos de atención en todo el límite del período de atención se descomponen en lugar de truncarse directamente.

Específicamente, el autor diseña una función de máscara gm g_mgramomPara controlar el cálculo del puntaje de atención, suponiendo que la duración máxima del lapso de atención posible es L lapso L_{lapso}Ls p an, la nueva puntuación de atención se puede expresar como:
atr = gm ( t − r ) exp ⁡ ( str ) ∑ q = t − L spant − 1 gm ( t − r ) exp ⁡ ( stq ) a_{tr}=\frac {g_m(tr) \exp \left(s_{tr}\right)}{\sum_{q=t-L_{span}}^{t-1} g_m(tr) \exp \left(s_{tq} \bien)}at r=q = t - Ls p ant 1gramom( tr )Exp( sq)gramom( tr )Exp( st r)
El proceso se puede dividir en dos etapas:

  1. Determine la función de cambio de atención de límite difuso ga g_agramoun
  2. Basado en ga g_agramounConstruya la función de máscara gm g_mgramompara el aprendizaje de representación consciente de la extensión.

Para ajustar la duración del período de atención, el autor define un parámetro de aprendizaje δ ∈ [ 0 , 1 ] \delta \in [0,1]d[ 0 ,1 ]ga ( x ) g_a(x)gramoun( x ) y el correspondientegm ( x ) g_m(x)gramom( X )可以表示如下:
ga ( z ) = − z + l + dd , l = δ L lapso . gm ( z ) = { 1 , ga ( z ) > 1 0 , ga ( z ) < 0 ga ( z ) , de lo contrario \begin{aligned} & g_a(z)=\frac{-z+l+d}{ d}, \\ & l=\delta L_{\text {span}} . \\ & g_m(z)= \begin{casos}1, & g_a(z)>1 \\ 0, & g_a(z)<0 \\ g_a(z), & \text { de lo contrario }\end{casos } \\ & \end{alineado}gramoun( z )=dz+yo+re,yo=PERDIDO _lapso .gramom( z )= 1 ,0 ,gramoun( z ) ,gramoun( z )>1gramoun( z )<0de lo contrario 
donde estarel controla la duración total del período de atención,ddd es un hiperparámetro que controla la duración del período de atención decreciente. La imagen de abajo esgm g_mgramomDescripción de la función:
imagen.png
la línea de puntos representa ga g_agramoun函数的备选项,例如:
ga ′ ( z ) = { 1 , z ≤ l 0 , z > l , ga ′ ′ ( z ) = { 1 , z ≤ l 1 2 π ⋅ re 3 Exp ⁡ ( − ( z − l ) 2 2 ( d 3 ) 2 ) , z > l \begin{reunidos} g_a^{\prime}(z)=\left\{\begin{array}{ll} 1, & z \leq l \ \ 0, & z>l \end{matriz},\right. \\ g_a^{\prime \prime}(z)= \begin{cases}1, & z \leq l \\ \frac{1}{\sqrt{2 \pi} \cdot \frac{d}{3 }} \exp \left(-\frac{(zl)^2}{2\left(\frac{d}{3}\right)^2}\right), & z>l\end{casos} \ fin {reunido}gramoa′′( z )={ 1 ,0 ,zyoz>yo,gramoa"( z )= 1 ,14:00 _ 3re1Exp( -2 (3re)2( z - l )2),zyoz>yo
Los experimentos han encontrado que las funciones de decaimiento lineal funcionan mejor.
Ajustando δ \deltaδ permite que el modelo aprenda la longitud de tramo óptima para la tarea correspondiente. La atención de múltiples cabezas puede aprender de forma independiente la duración de los períodos de atención para obtener diferentes períodos de desenfoque óptimos. La atención difusa solo usa una capa, por lo que solo afecta la decisión de intervalo y no tiene efecto en los tokens de la secuencia.

3. Experimentos

3.1 Configuración

Los experimentos se llevan a cabo en cuatro conjuntos de datos en las tres tareas de NER, RE y ASTE. En términos de selección de índice, el experimento NER usa la puntuación F1, el RE usa la puntuación F1 de relación estricta y el ASTE usa la puntuación F1 del triplete emocional.
El modelo se basa en BERT-base y BERT-large.En FSUIE, la capa FSA y la capa de predicción de límites de tramo se agregan al modelo. Consulte el texto original para conocer otras configuraciones de hiperparámetros.

3.2 Resultados de las tareas NER

imagen.png
La imagen de arriba es el resultado del experimento NER. Se puede ver que, en comparación con otros modelos basados ​​en la arquitectura BERT, FSUIE muestra un buen rendimiento y tiene la mejora más significativa en el conjunto de datos ADE, porque el conjunto de datos ADE es pequeño. para aprender mejor las representaciones difusas generalizadas conscientes de la extensión. Además, el modelo FSUIE supera a algunos modelos más grandes, como el modelo T5.

3.3 Resultados en tareas de RE

imagen.png
En comparación con la base UIE básica, la base FSUIE logra mejoras significativas y logra resultados más competitivos con algunos modelos más grandes a pesar de adoptar una estructura más simple y una columna vertebral más pequeña.
En comparación con algunos modelos de extracción basados ​​en intervalos (como Bio-BERT), FSUIE funciona mejor, lo que indica que el mecanismo de intervalo difuso introducido puede extraer información general de los datos, dotando al modelo de capacidades de extracción de información más sólidas.
En comparación con el modelo UIE generativo, FSUIE no requiere estructuras de generación de secuencias adicionales y puede lograr mejores resultados con menos parámetros.

3.4 Resultados de las tareas ASTE

imagen.png
Dado que el conjunto de datos ASTE es pequeño, solo se usa la base FSUIE para la comparación. Al introducir el mecanismo de intervalo difuso, el modelo FSUIE mejora significativamente el rendimiento de ASTE en comparación con la base de referencia de UIE, logrando resultados de última generación en tres conjuntos de datos.
La brecha de rendimiento entre el modelo UIE y otros modelos se puede atribuir parcialmente a las ventajas del entrenamiento previo de UIE y, en comparación con algunos modelos que descomponen algunas tareas en múltiples subtareas, el modelo FSUIE logra un mejor rendimiento utilizando una arquitectura de modelo unificado.
En la tarea ASTE, el modelo UIE basado en intervalos, en contraste con el modelo UIE basado en generativos, puede utilizar la información semántica completa del intervalo de predicción para ayudar a extraer opiniones y sentimientos. Además, FSUIE responde a la estructura real de la tarea de extracción, evitando los parámetros adicionales que aporta la estructura generada.

3.5 Resultados en entornos de bajos recursos

Para probar la robustez del modelo, se llevaron a cabo experimentos en escenarios de bajos recursos, y los resultados son los siguientes:
imagen.png
De acuerdo con los resultados de la tabla anterior, se demuestra aún más la superioridad de FSUIE sobre UIE en escenarios de bajos recursos. .

3.6 Estudio de ablación

Esta sección lleva a cabo experimentos de ablación para probar el rendimiento de UIE-base, UIE-base+FSL, UIE-base+FSA y FSUIE en el conjunto de datos NER ACE04. Los resultados se muestran en la siguiente figura: Puede ver que el modelo puede converger más rápido bajo
imagen.png
FSA, para FSA, el modelo se enfoca en las posiciones necesarias y captura mejor el intervalo de secuencia, mientras que FSL no mejora mucho la velocidad de convergencia.
Para seguir estudiando la contribución de FSL y FSA a la mejora del rendimiento del modelo, se utilizó el conjunto de datos ADE para realizar experimentos de ablación en la tarea NER.
imagen.png
Se puede encontrar que la introducción de FSL puede mejorar el rendimiento del modelo, y el rendimiento de la introducción del modelo FSA disminuye ligeramente. Esto se debe a que la sola introducción de FSA hace que el modelo solo se centre en una parte específica, lo que resulta en la pérdida de parte de la información. La introducción de FSL alivia la dependencia del modelo en el límite de extensión de la etiqueta, lo que permite que el modelo extraiga más información, y FSA guía al modelo para filtrar información clave de información más rica, obteniendo así mejoras sustanciales.

3.7 Visualización de FSA

imagen.png
Para examinar más a fondo la eficacia del mecanismo de extensión difusa, se visualiza la distribución de atención de la capa FSA y se puede encontrar que cada token en la secuencia de codificación final tiende a enfocarse en la información semántica dentro de un rango limitado de tokens anteriores. .

4. Trabajo relacionado

levemente

5. Conclusión

Este documento propone el marco FSUIE, que puede mejorar las capacidades generales de extracción de información, específicamente, se proponen pérdida de tramo difuso y atención difusa, y los experimentos demuestran el rendimiento del modelo, así como la generalización y la convergencia rápida en escenarios de bajos recursos.

6. Limitaciones

El marco de este documento requiere un mecanismo de atención más complejo y potencia de cálculo adicional, y las funciones de densidad de probabilidad exploradas son limitadas.

leer resumen

Este documento propone un marco muy novedoso, que apunta a tareas de extracción generales específicas, haciendo un alboroto sobre la función de pérdida y la estructura del modelo, de modo que el modelo general de arquitectura de Transformer se pueda aplicar mejor a tareas de dominio específico.La parte experimental del artículo también es Es muy narrativo. En la parte del experimento de ablación, FSL mejora el rendimiento del modelo. Aunque FSA acelera la velocidad de convergencia pero reduce el rendimiento del modelo, la combinación de los dos puede tener una mejora mayor. FSL permite que el modelo extraiga más información, y la explicación de que FSA guía el modelo para filtrar información clave de información más rica es bastante convincente y está bien verificada mediante experimentos. Sin embargo, todavía hay algunas deficiencias en el artículo:

  1. Experimentos insuficientes, el modelo generativo solo se compara con T5, pero no con modelos generativos de lenguajes grandes como ChatGPT y BART, por lo que no se puede probar desde el punto de vista experimental que el modelo de detección de intervalo es mejor que el modelo generativo en términos de extracción.
  2. La parte de la función de densidad de probabilidad carece de prueba teórica y la elección de la distribución gaussiana es demasiado directa y poco convincente.
  3. El rendimiento de los escenarios de bajos recursos no se ha comparado con otros modelos, lo que no explica su mejor rendimiento de generalización.

Después de leer este artículo, en realidad me inspiró hasta cierto punto. De hecho, los modelos actuales de extracción de información general utilizan modelos de lenguaje grandes. El propósito de la extracción de información se logra mediante el ajuste fino de las instrucciones. Si las ideas propuestas en este artículo se aplican a modelos grandes, realmente puede ser capaz de mejorar aún más el rendimiento del modelo. Después de todo, el modelo grande en sí mismo es un modelo grande general. En los datos, se puede ajustar a través de instrucciones para hacerlo mejor para tareas específicas Luego, en el modelo y el algoritmo, puede comenzar desde el mecanismo de atención. Puede ser una buena idea comenzar con la función de pérdida y dejar que haga tareas específicas del dominio.

Supongo que te gusta

Origin blog.csdn.net/HERODING23/article/details/131754445
Recomendado
Clasificación