Significado de las palabras clave en el aprendizaje profundo

referencia

columna vertebral

red troncal troncal. En la red neuronal, especialmente en el campo de CV, la extracción de características de la imagen generalmente se realiza primero (vggnet, resnet, el inicio de Google son comunes), esta parte es la base de toda la tarea de CV, porque las tareas posteriores posteriores se basan en las características de la imagen extraída para hacer artículos (como clasificación, generación, etc.). Por lo tanto, es muy vívido llamar a esta parte de la estructura de la red la columna vertebral, como si fuera un pilar para que una persona se levante.
La red troncal, la red utilizada para la extracción de características, representa una parte de la red y generalmente se usa para la extracción frontal de información de imagen, generando un mapa de características para el uso posterior de la red. Por lo general, se utilizan VGGNet y Resnet que mencionó, porque estas capacidades de extracción de características de la red troncal son muy sólidas, y puede cargar los parámetros del modelo oficial capacitados en grandes conjuntos de datos (Pascal, Imagenet) y luego conectar su propia red para afinar .Puede.

cabeza

La cabeza es una red que obtiene el contenido de salida de la red, usando las características previamente extraídas, la cabeza usa estas características para hacer predicciones.

cuello

cuello: Se coloca entre la columna vertebral y la cabeza, con el fin de aprovechar mejor los rasgos extraídos por la columna vertebral
4. Cuello de botella: el significado de cuello de botella generalmente se refiere al hecho de que la dimensión de datos de entrada de la red es diferente de la dimensión de salida, y la dimensión de salida es mucho más pequeña que la entrada, al igual que el cuello, que se vuelve más delgado. El parámetro bottle_num=256 que a menudo se establece significa que la dimensión de la salida de datos por la red es 256, pero la entrada puede ser de 1024 dimensiones.
5. GAP: en la red diseñada, a menudo se puede ver la capa de brecha. No sabía para qué servía antes, pero después de aprenderlo, es la agrupación de promedio global de Global Average Pool, que es para promediar las características. de un determinado canal. AdaptativeAvgpoold(1) se usa a menudo. En pytorch, esto representa una agrupación promedio global adaptativa. En términos humanos, es promediar las características de un determinado canal self.gap = nn.AdaptiveAvgPool2d(1)
6.Incrustación: los métodos de aprendizaje profundo utilizan transformaciones lineales y no lineales para realizar la extracción automática de características en datos complejos y representar características como "vectores". Este proceso generalmente se denomina "incrustación" (incrustación)
7. Las tareas utilizadas para el entrenamiento previo se denominan tareas de pretexto, y las tareas utilizadas para el ajuste fino se denominan tareas posteriores 8.
Parámetros de temperatura Este parámetro de temperatura a menudo se puede ver en la figura de los documentos, ¿de qué sirve entonces? Por ejemplo, a menudo vemos la siguiente fórmula: la beta interna es el parámetro de temperatura, ¿qué papel juega en el cálculo? Este es el caso, puede suavizar la salida de softmax, por ejemplo: import torchx = torch.tensor([1.0,2.0,3.0])y = torch.softmax(x,0)print(y)x1 = x / 2 # beta es 2y = torch.softmax(x1,0)print(y)x2 = x/0.5 # beta es 0.5y = torch.softmax(x2,0)print(y) la salida es la siguiente: tensor([ 0.0900 , 0.2447, 0.6652]) tensor([0.1863, 0.3072, 0.5065]) tensor([0.0159, 0.1173, 0.8668]) Cuando beta>1, la salida se puede suavizar; cuando beta<1, puede hacer que la salida sea más variada y estafador. Si la beta es relativamente grande, la pérdida de entropía cruzada de la clasificación será muy grande y se pueden usar diferentes valores beta en diferentes iteraciones, lo que es algo similar al efecto de la tasa de aprendizaje.
9. Calentar. El calentamiento se refiere al uso de un pequeño aprendizaje para entrenar varias épocas primero. Esto se debe a que los parámetros de la red se inicializan aleatoriamente y es fácil ser numéricamente inestable si se usa una gran tasa de aprendizaje al principio.
10 de extremo a extremo En los artículos, a menudo se encuentran descripciones como de extremo a extremo, entonces, ¿qué es exactamente de extremo a extremo? De hecho, si se da una entrada, daremos una salida, por complicado que sea el proceso, mientras se dé una entrada, una oportunidad corresponde a una salida. Por ejemplo, en el problema de clasificación, ingresa una imagen, y la red tiene extracción de características, clasificación de enlace completo, cálculo de probabilidad, etc., pero saltando del problema del algoritmo, solo a partir de los resultados, se le da una entrada y salida. un resultado de predicción. La solución de extremo a extremo es ingresar una imagen y generar el resultado final deseado. Los detalles del algoritmo y el proceso de aprendizaje se envían a la red neuronal.
11 Adaptación de dominios y generalización de dominios En la adaptación de dominios y la generalización de dominios, la configuración común es que el dominio de origen D_S es completamente conocido y el dominio de destino D_T tiene o no tiene etiquetas. Los métodos de adaptación de dominio intentan transferir conocimiento desde el dominio de origen al dominio de destino. El segundo escenario puede considerarse como generalización de dominio de generalización de dominio. Esto es más común porque el modelo se aplica a un campo completamente desconocido, porque no se ha visto, por lo que no hay actualización ni ajuste del modelo. Este tipo de problema de generalización es un problema de conjunto abierto. Debido a que se requieren muchas categorías de predicción, es un dolor de cabeza.

Significado de las palabras clave en el aprendizaje profundo

columna vertebral

cabeza

cuello

Supongo que te gusta