PNL utiliza comúnmente en el texto de resumen del modelo de clasificación

Hoy en día, el aprendizaje profundo ha convertido en el estándar de la tecnología en el campo de la PNL, mucho éxito en la red neuronal imagen de convolución (CNN) han comenzado a penetrar ampliamente en la clasificación de texto, la traducción automática, otras tareas de PNL legibles por máquina y. Sin embargo, en ACL2017 atrás, a nivel de palabra modelo de clasificación de texto (las unidades semánticas de palabras), ya que el modelo TextCNN 2014Kim et al, se ya no aparecía notablemente eficiente CNN modelo de tren, en especial el modelo de profundidad.

 

v2-4d4ddbd628a5411d32c06e5bf5d3d124_b.jpg
La figura 1 TextCNN (ShallowCNN) Modelo

Y hay un artículo tal en el 2017 ACL, Profundo Pirámide convolucionales redes neuronales para la categorización de textos [1] , en el fondo de convolución Pirámide de red (DPCNN) propuesto en el documento es el primero ampliamente eficaz en el sentido estricto de la palabra de nivel profunda convolución red neuronal clasificación de texto, la tabla de rendimiento es el siguiente:

 

v2-1a791b349b18ebd072d57a3956afe106_b.jpg

Por supuesto, esta tesis también se utiliza el dos-view incrustación para mejorar aún más el rendimiento del modelo, pero el modelo desde el punto de rendimiento comparación longitudinal de vista, que su clásico TextCNN (segunda fila de la tabla ShallowCNN) se ha mejorado significativamente, en cinco Yelp tarea de clasificación de la categoría sentimiento mejoró en casi 2 puntos porcentuales en. También es el primero en demostrar que en la clasificación de texto a nivel de palabra de profundo CNN todavía tiene un verdadero sentido de la imaginación.

Así, se trasladó directamente DPCNN, ShallowCNN, ResNet figura contraste, el inicio del texto ~

 

v2-2ce7dc875d0b6d83ef33e41265c2265e_b.jpg

La figura 2 DPCNN, TextCNN y ResNet

incrustación región

Como puede verse a partir de la tabla de comparación de a y c, DPCNN ResNet la diferencia es bastante grande. parte inferior DPCNN mientras aparentemente mantenido TextCNN como la estructura, donde el resultado de convolución de la capa TextCNN convolución comprende una pluralidad de tamaño de filtro de convolución llamada región de incorporación, es decir, de una región de texto / fragmento (tal 3gram ) generado mediante la incorporación de un conjunto de operación de convolución.

Cuando puede haber una operación de convolución 3gram dos opciones, una es reservada orden de las palabras, que se proporciona con un conjunto de dos dimensiones tamaño convolución = 3 * D intercalación 3gram enrevesado (donde D es la palabra dimensión incrustación); además la orden una palabra no se conserva (bolsas de modelo de palabra par), es decir, en primer lugar la incrustación 3gram 3-palabra vectores promediaron para obtener un tamaño = D, y proporciona un conjunto de convolución unidimensional de la comprobación del tamaño = D 3gram convolución. Obviamente TextCNN usando una orden palabra reservada en la práctica, y la práctica de usar la palabra DPCNN el modelo de bolsa, los autores DPCNN sostienen el primer enfoque es más probable que cause exceso de montaje, pero el rendimiento de este último frente a los que casi (de hecho, con la red de DAN (Deep redes de promedio) en principio y discutir sobre las mismas conclusiones, están interesados ​​pueden conocer casi hasta la siguiente sección del portal de averiguar).

capa de convolución o capas conectados completamente?

Después de generar la incrustación de región, de acuerdo con la práctica clásica TextCNN, a continuación, se selecciona entre cada una de las figuras, las características más representativas característicos, es decir, la aplicación directa de las capas de células máximo global (capa-sobre-tiempo max-pooling), SO el vector de características se genera en este texto (si hay 3,4,5 convolución tamaño del filtro tres, cada uno que comprende 100 el tamaño del núcleo de convolución, entonces por supuesto que tendrá 3 * 100 en la que figura a continuación, las operaciones Max-sobre-tiempo-puesta en común de aplicar a cada mapa de características, entonces los vectores de características de texto, es decir, la dimensión 3 * 100 = 300).

Pero al parecer TextCNN hacerlo no será un problema serio eh, con la bolsa de modelo de palabras (incluyendo n-gramas) en el sentido de la naturaleza para hacerlo + ponderación + NB / MaxEnt / SVM texto clásico modelo de clasificación es esencialmente no hay diferencia, pero en caliente representación transición para evitar la incrustación de la palabra bolsa representada de datos de palabras modelo de raleza encontrado un problema nada. Podemos decir que la introducción de los ingresos en función de la naturaleza del vector provocados TextCNN "sinónimos tiene vector similar indica" una bonificación, mientras que sólo el conocimiento puede TextCNN (relación sinónimo) un mejor uso de la palabra vector de Bale. Esto significa que la información de larga distancia (como 12gram) en el modelo clásico sigue siendo difícil de aprender difícil de aprender en TextCNN en. Entonces, ¿cómo hacer que estos patrones complejos de aprender a hacer de larga distancia?

Claramente, ya sea profundización capa totalmente conectado, o profundizar capa de convolución. ¿Qué es mejor para profundizar en ella? Pequeño tarde enterrado un presagio Bueno, está la respuesta en este pequeño know noche casi responderse:

capa de convolución y clasificación capa, lo que es más importante?

Mientras convolución

Después de obtener región de incorporación, con el fin de evitar la posterior imaginar demasiado abstracto, que podría todavía como la palabra incrustación región de incorporación, red virtual es devolver la palabra incrustar secuencia oh.

En primer lugar, explicar a un concepto básico de convolución - siempre y cuando convolución. El más comúnmente utilizado en la clasificación de texto puede ser estrecha en la convolución de la longitud seq_len secuencia de entrada, de almendra de convolución de tamaño n, entonces la longitud de la secuencia de salida se convoluciona estrecha seq_len-n + 1. Y mientras el nombre sugiere es la longitud de convolución de la secuencia de salida es igual a la longitud de la secuencia de entrada seq_len. No imaginado los estudiantes en su propia Google Oh, no empiece a hablar de ello.

A continuación, el texto, o lo que es el significado de la palabra incrustación de secuencia, siempre convolución es?

Desde ya que muchos de entrada y salida de número de secuencia de posiciones, vamos a entrar en el n incrustación de la secuencia de salida se llama los n-bits de palabra, entonces el significado de tamaño convolución kernel se genera n siempre convolución es bastante clara , es decir, información de contexto acerca de cada palabra en la secuencia de bits de entrada y ((n-1) / 2 ) palabras comprimidos en la incrustación de bit de la palabra , es decir, cada palabra producida por los bits de información de contexto de nivel superior modificado semántica más preciso.

Bueno, de vuelta a DPCNN arriba. Queremos superar las deficiencias del modo de captura de larga distancia TextCNN, es evidente la necesidad de usar profunda CNN. Así que, mientras montón de convolución directa, siempre que sea posible convolución?

Obviamente, esto hará que cada palabra contiene bits en más y más, más y más a largo contexto de información, pero esta eficiencia es muy baja para la alimentación, al parecer para hacer las capas de la red llegar a ser muy, muy profundo, por lo que la operación lo torpe tenerlo zumbidos. Sin embargo, desde siempre, siempre y cuando el montón de convolución convolución hará que cada bit de palabra de la incrustación de descripción semántica de una descripción más rica es exacta, entonces por supuesto que podemos apropiadas para aumentar la riqueza de la pila dos lexemas incrustación de representación.

Así región capa de encaje (aquí se supone que la palabra capa, la secuencia correspondiente de "grupo hermana Xiaojuan verde matcha traer la deliciosa oh" incrustación) anterior puede ser diseñado como se muestra en la figura 3 que:

 

v2-7eff2b765aaea4b74032c2182975fc38_b.jpg

Figura 3

El número de funciones fijas Mapa

Después de la semántica de cada palabra representa una buena parte, de hecho, una gran cantidad de significado de la palabra n-gramas contiguos o adyacentes que se pueden combinar, como "Xiaojuan hermana que hacer el bien" en el "no" y "muy buena", aunque originalmente de semántica demasiado muy lejos, pero como la palabra adyacente "no es demasiado bueno" aparece sustancialmente equivalente a su fusión semántica como "muy buena", por lo que puede el "no" y "muy buena" semántica wow. Al mismo tiempo, el proceso de fusión se puede llevar a cabo en su totalidad en el original en el espacio de la incrustación, después de todo, el texto original directamente a la opción "No demasiado bueno" en el "bueno" es muy posible que vaya, no hay necesidad de mover todo el espacio semántico .

De hecho, en comparación con una imagen de este "punto, línea, arco" La característica de bajo nivel para una característica de este nivel significativo de alto nivel de la cuenta "los ojos, la nariz, la boca," distinguir función de texto plano avanzado significativamente más que el de la palabra (1 gramo) a la frase y luego 3gram, 4gram actualización, de hecho, en gran medida satisfacer la función de "semántica reemplazar". Y es difícil imaginar que esto ocurra fenómenos "de sustitución semántica" (como "nariz" semántica bien pueden ser reemplazados por la semántica "ARC"?).

Por lo tanto (enfoque designado), DPCNN con ResNet una gran diferencia es que, en DPCNN murió en un número fijo de mapa de características, que es una dimensión fija del espacio de la incrustación (para facilitar la comprensión, en lo sucesivo denominado espacio semántico), que hace posible la red permiten las operaciones de combinación toda palabra contigua (n-gramas adyacente) llevan a cabo en el espacio original o espacio similar al espacio original (por supuesto, la red no hacer en la práctica no es necesariamente Oh, pero ofrece una especie de tales condiciones). Es decir, aunque la forma de toda la red es un punto de vista de profundidad, pero desde el punto de vista de espacio semántico puede ser plana. ResNet y está cambiando constantemente espacio semántico, como la imagen del espacio semántico capa de red semántica profundizar constantemente saltar a un nivel más alto de.

capa media pooling

Bien después, proporciona una condición tan buena de la fusión, se puede combinar con la capa puesta en común. Después de cada uno de un tamaño = 3, paso = 2 (tamaño 3, paso 2) puesta en común de capa (en lo sucesivo denominado medio capa de células), la longitud de la secuencia se comprimió en la mitad de la original (véase propio cerebro arriba). También este es el tamaño de convolución kernel = 3, media de cada celda a través de una capa después de lo cual los segmentos de texto pueden ser percibidos el doble de tiempo que antes.

Gracias a la sección de comentarios @ Chen Cheng señalaron que el tamaño de la agrupación del error

Por ejemplo, precedida solamente tres bits perceive longitud de la palabra de información, después de la capa de células medio 6 bits de información por longitud de palabra puede sentirlo, la convolución tiempo medio celular y la capa de size = 3 combinación de capas mostrada en la Fig. 4.

 

v2-7f8c9c424b9e6c4f7881d401b6955613_b.jpg

Figura 4

Bueno, el problema parece haberse resuelto, el objetivo a alcanzar el éxito. El resto de nosotros sólo es necesario repetir todo el tiempo, siempre y cuando la convolución convolución + +1/2 puesta en común puede ser amigos, que se repite como se muestra en el bloque 5:

 

v2-291b84f66912419a29859fd0d882860d_b.jpg

Figura 5

conexión residual

Pero! Si el problema es realmente así de simple, y de repente menos profundas dificultades de aprendizaje de la Super Multi.

En primer lugar, porque cuando hemos inicializado profundidad CNN, a menudo el peso de cada capa se inicializan a un valor pequeño, lo que dio lugar al inicio de la red, cada entrada posterior es casi cercana a cero, entonces la red de la producción natural de No tiene sentido, y estas pequeñas pesas sino también impidió la propagación de la pendiente, por lo que las redes fase inicial de formación a menudo iterativo mucho tiempo en arrancar.

Mientras tanto, incluso si se ha completado el arranque de red, ya que la profundidad de una red de matriz afín (el lado de conexión entre cada dos), incluso por aproximación, el proceso de entrenamiento de la red es muy propenso a explotar o problemas de difusión de gradiente (aunque debido a los pesos no compartidos, CNN en profundidad red RNN relación mejor punto).

Por supuesto, estos dos mencionados anteriormente problema es esencialmente un problema gradiente de difusión. Entonces, ¿cómo resolver la difusión de profundidad red CNN gradiente problema de hacer? Por supuesto, la película trata sobre Dios, Ming Chan, a continuación, hacer uso de extractos de amigos ~ ResNet

ResNet propuesto atajo-conexión / skip-conexión / residual-conexión ( conexión residual) es un soluciones muy simples, razonables y eficaces. Piense mirando a la Fig. 5, ya que cada bloque de entrada 0 es fácil en la etapa inicial no puede ser activado, entonces la región de incorporación con una línea conectada directamente a la capa de entrada de cada uno de los bloques y / capa de salida, finalmente, la puesta en común de no ser amigos!

Imagínese, esta vez debido a la conexión de acceso directo está conectado a la entrada de cada bloque (por supuesto, con el fin de que coincida con la dimensión de entrada, para avanzar a través de la operación correspondiente a 1/2 de la piscina número), a continuación, el equivalente a una conexión de cortocircuito, es decir, un corto directo región de incorporación conectado a la capa final de células o la capa de salida. Y así sucesivamente, entonces no es cosa degeneró en TextCNN DPCNN. red de formación de profundidad no es buena, pero es una de TextCNN formación excepcionalmente fácil. Dicho modelo de la infancia de TextCNN está en marcha, naturalmente, no sufren problemas de arranque en frío dijo anteriormente que la profundidad de la red de CNN.

De la misma manera, con el acceso directo, puede omitir la capa de convolución gradiente pesada debilita el derecho a transmitir todo el camino desde el sin pérdida de acceso directo a las manos de cada bloque, hasta que la red front-end, lo que facilita en gran medida la desaparición del gradiente.

Así que después de DPCNN en el Bloque se añadió conexión de acceso directo, que es la justicia perfecta. A saber, el diseño de una versión de red de la forma final de los siguientes:

 

v2-40607f235bc4a5990b975943429ddbd7_b.jpg

Finalmente pulse problema, porque la presencia de la mitad delantera de la capa de células, la longitud del número de secuencia de bloque de texto aumentará exponencialmente nivel decreciente, es decir,

num \ _blocks = log_2seq \ _len

Esto conduce a la profundización de longitud de secuencia como la pirámide presenta la red de forma (pirámide):

 

v2-27406ca0abbaf6eb176818e956bac13f_b.jpg

Por lo tanto, los autores de esta versión simplificada de la profundidad de personalización ResNet llamados Deep "pirámide" de CNN.

Publicado 33 artículos originales · ganado elogios 0 · Vistas 3288

Supongo que te gusta

Origin blog.csdn.net/xixiaoyaoww/article/details/104553478
Recomendado
Clasificación