Combinación de conocimientos básicos de redes neuronales

Que es una red neuronal

  1. Explicación:
    La red neuronal de la que estamos hablando en el aprendizaje automático se refiere al "aprendizaje de la red neuronal", es decir, la intersección de las dos áreas temáticas del aprendizaje automático y la red neuronal.

  2. En el sentido biológico, el componente más básico de una red neuronal es una neurona, y el componente más básico de una red neuronal en informática es un modelo neuronal .

  3. La definición más extensa es: Una
    red neuronal es una red interconectada ampliamente paralela compuesta de unidades simples adaptables, cuya organización puede simular la respuesta interactiva del sistema nervioso biológico a objetos del mundo real.
    La unidad simple aquí se refiere al modelo de neurona.
    Para la segunda mitad de la oración, de hecho, no necesitamos considerar si la red neuronal realmente simula la red neuronal biológica. Solo necesitamos considerar una red neuronal como un modelo matemático que contiene muchos parámetros. Este modelo se compone de varias funciones anidadas entre sí. Tiene.

Modelo de neurona

  1. En 1943, McCulloch y Pitts resumieron el principio de la acción de las neuronas en las redes neuronales biológicas en el "modelo de neuronas MP" que todavía se utiliza en la actualidad.
  2. En este modelo, la neurona recibe n señales de entrada de otras neuronas. Estas señales tienen diferentes pesos. El valor de entrada total recibido se comparará con el umbral de la neurona (valor crítico). La función de respuesta (también llamada activación) produce una salida después del procesamiento.
  3. La función de respuesta ideal es una función de paso, que puede asignar directamente el valor de entrada a 0/1, pero debido a su discontinuidad y deficiencias no suaves, la función Sigmod se usa a menudo como función de paso, que puede asignar un rango más amplio de valores de entrada Para (0,1), también se llama función de compresión.

Aprendizaje de redes neuronales

  1. Qué aprender: como se mencionó anteriormente, una red neuronal es un modelo matemático que contiene muchos parámetros y está anidado por varias funciones. (Por ejemplo, una red compuesta por 10 neuronas contiene 10 umbrales y 90 pesos de conexión). En general, dado un conjunto de datos de entrenamiento, los pesos y umbrales se obtienen mediante el aprendizaje.
  2. Cómo aprender: si el umbral se considera una entrada fija, solo necesita aprender para el peso. La regla de aprendizaje es muy simple, para el ejemplo de entrenamiento, si la predicción es correcta, el peso no cambiará, de lo contrario, el error se ajustará según la desviación.

Red neuronal multicapa

  1. Primero entendamos un perceptrón de red neuronal básico, no multicapa. Está compuesto por dos capas de neuronas, la capa de entrada y la capa de salida. La capa de entrada es responsable de recibir señales de entrada externas y pasarlas a la capa de salida, es decir, no es responsable del procesamiento de la función.Las neuronas de la capa de salida son neuronas MP y realizarán el procesamiento de la función de activación. En otras palabras, el perceptrón tiene solo una capa de neuronas funcionales, lo que hace que su capacidad de aprendizaje sea muy limitada.
  2. ¿Cómo hacerlo? Necesitamos agregar más neuronas funcionales entre la capa de entrada y la capa de salida Estas capas intermedias se denominan capas ocultas. Siempre que contenga capas ocultas, puede denominarse red neuronal multicapa. Por ejemplo, una red neuronal de una sola capa oculta contiene tres capas: entrada, oculta y salida.
  3. Las redes neuronales son en su mayoría estructuras jerárquicas, cada capa de neuronas está completamente interconectada con la siguiente capa de neuronas y no hay la misma capa ni conexiones entre capas. Esta estructura se denomina red neuronal de alimentación directa multicapa. Tenga en cuenta que la retroalimentación no significa que la señal no pueda esperar al barco, sino que no hay bucle ni bucle en la topología de la red.

Aprendizaje profundo

  1. En teoría, un modelo con más parámetros es más complejo y tiene una mayor "capacidad", lo que significa que puede completar tareas de aprendizaje más complejas. Sin embargo, esto también significa que los modelos complejos son más difíciles de entrenar. Con el advenimiento de la era de la computación en la nube y el big data, el aumento sustancial de la potencia informática ha mejorado enormemente la eficiencia del entrenamiento, y el aumento sustancial de los datos de entrenamiento puede reducir el riesgo de sobreajuste. Esto hace que los modelos complejos representados por el aprendizaje profundo comiencen a llamar la atención.
  2. El modelo típico de aprendizaje profundo es una red neuronal muy profunda. Hay dos métodos de entrenamiento efectivos para redes neuronales ocultas múltiples.
    ① Entrenamiento no supervisado capa a capa
    Idea básica: "pre-entrenamiento + ajuste fino".
    Cada vez que se entrena una capa de nodos ocultos, la salida de la capa superior de nodos ocultos se utiliza como entrada durante el entrenamiento, y la salida de esta capa de nodos ocultos se utiliza como entrada de la siguiente capa de nodos ocultos. Esto se denomina "preentrenamiento".
    Una vez finalizada toda la formación previa, toda la red estará "ajustada" a la formación.
    Aplicación: DBN Deep Belief Network
    ② Peso compartido
    Idea básica: deje que un grupo de neuronas utilice el mismo peso de conexión.
    Aplicación: CNN Convolutional Neural Network
  3. Otro ángulo de comprensión del aprendizaje profundo.
    Independientemente de si es DBN o CNN, sus múltiples capas ocultas se apilan y cada capa procesa la salida de la capa anterior. Se puede considerar que procesa la señal de entrada capa por capa, de modo que los objetivos inicial y de salida no están estrechamente relacionados. La representación de entrada cercana se transforma en una representación que está más estrechamente relacionada con el objetivo de salida, lo que hace posible realizar tareas que eran difíciles de completar según la última capa del mapeo de salida.
    En otras palabras, a través del procesamiento multicapa, después de que las características iniciales de bajo nivel se transforman gradualmente en representaciones de características de alto nivel, se pueden usar modelos simples para completar la clasificación compleja y otras tareas de aprendizaje. Por lo tanto, el aprendizaje profundo puede entenderse como "aprendizaje de funciones".

Fuente: Zhou Zhihua "Machine Learning"

Supongo que te gusta

Origin blog.csdn.net/weixin_44997802/article/details/108789883
Recomendado
Clasificación