Redes profundas con una profundidad estocástico

artículo en profundidad al azar se publica en ECCV2016, este artículo antes de lo DenseNet., DenseNet sino también porque la red se inspiró en la profundidad de azar, sólo pregunte. Red profunda con la profundidad estocástico, en el proceso de formación, para eliminar las muchas capas de azar y no afectó a la convergencia del algoritmo, se explica ResNet tiene buena redundancia. Y la eliminación de las capas intermedias tienen ningún efecto en el resultado final, describen función ResNet información de cada capa de aprendizaje son muy pequeñas, también se ha descrito ResNet buena redundancia. Por lo tanto se propone la red DenseNet, DenseNet red y profundidad estocástico son Huanggao Bo Stephen está fuera.

la red profunda ahora mostró una capacidad muy fuerte, pero hay muchos problemas. Incluso en las computadoras modernas, el gradiente se disipará, antes de la difusión de la información siguen a decaer, el tiempo de formación será cuestiones muy lentos y otros.

ResNet buenos resultados en muchas aplicaciones se ha confirmado, sin embargo, ResNet todavía tienen un defecto no puede ser ignorado - el más profundo de la red suele requerir varias semanas de entrenamiento - es así, que se aplica en la escena real de los costes muy alta. Para resolver este problema, los autores introdujeron un enfoque de "contrario a la intuición", que podemos descartar arbitrariamente algunas capas en el proceso de formación, y el uso de la red completa durante la prueba.

El papel principal es presentar una profundidad al azar, utilizando poca profundidad (pase al azar algunas de las capas sobre la base de resnet) durante la formación, el uso de una gran profundidad en la prueba, menos tiempo de formación y mejorar el rendimiento de la formación, en la final de cuatro el conjunto de datos que el resnet rendimiento original (cifar-10, cifar-100, SVHN, IMAGEnet). Su método ResNet número aleatorio proceso de formación de abandono para la mejora de la capa intermedia, se puede encontrar para mejorar significativamente la capacidad de generalización de ResNet. La profundidad de la red se puede considerar una modificación ResNet aleatorio.

Los autores utilizaron el bloque residual como sus componentes de la red, por lo tanto, en la formación, si se habilita un bloque residual en particular, entonces fluirá simultáneamente a través del acceso directo de cambio de identidad tabla de entrada (de acceso directo de identidad) y peso capa, de lo contrario la entrada sólo fluirá a través de acceso directo de transformación de identidad. Durante el entrenamiento, cada capa tiene una "probabilidad de supervivencia", y será descartado arbitrariamente. Durante la prueba, todo el bloque permanecerá activo, y se ajustará el bloque en función de su probabilidad de supervivencia en el entrenamiento

El [Oficial]estado de activación generada de cada bloque con una variable aleatoria de Bernoulli [Oficial], con el tiempo ResNet el bloque de cuello de botella, a partir de

[Oficial]

redefinida

[Oficial]

Cuando [Oficial], es decir, cuando el bloque no se activa,

[Oficial]

(Nota: el original se [Oficial]hizo también de explicar, pero creo que más que una mayor claridad)

Además, [Oficial]a partir de [Oficial]descendente a la simple lineal [Oficial], que se define como

[Oficial]

predicción:

ResNet el bloque se define como

[Oficial]

Es decir, la probabilidad de cada bloque en un derecho residual para bloquear este peso.

Esta introducción de variables aleatorias están diseñados para superar eficazmente la mejor capacidad de generalización overfitting El modelo ha. La explicación de autor no es parte del bloque se activa, de hecho, lograr una integración modelo recesivo (implícito modelo ensemble), debido a la profundidad de la maqueta de tren cuando al azar, modelo de predicción para determinar la profundidad, de hecho, al probar las diferentes profundidades el modelo incorpora hasta. Cuando se determina la profundidad de la información con las capas de red se extraen por filtración, cuando la información llega a la parte superior de la red no es muy informativo, y la cara de dicha información de red de alto nivel es difícil obtener una formación eficaz. Parte del bloque no se activa, de manera que bloques de alto nivel puede recibir más información de la parte inferior, puede ser más plenamente capacitado, por lo que el modelo tiene una mejor capacidad de expresarse. En la predicción, y para determinar la profundidad de cada bloque de ponderación, y de hecho, un modelo de la fusión.

Otra explicación, este diseño es la introducción de variables aleatorias Dropout aplica a toda la red.

Supongo que te gusta

Origin www.cnblogs.com/ziwh666/p/12482583.html
Recomendado
Clasificación