Andrew Ng aprendizaje automático (ocho) - modelo de red neuronal

En primer lugar, suponiendo lineal (red neuronal)

Los siguientes ejemplos tienen por objeto ilustrar algoritmo de red neuronal para resolver estos problemas dependen del estudio de clasificador no lineal compleja.
Aquí Insertar imagen Descripción

Considere el problema de la clasificación de aprendizaje supervisado, tenemos el correspondiente conjunto de entrenamiento, si el uso del algoritmo de regresión logística para resolver este problema. En primer lugar necesidad de construir una función de regresión logística contiene muchos término no lineal.

De hecho, cuando el número de términos de polinomios suficiente, entonces usted puede ser capaz de obtener una línea divisoria por separado entre muestras positivas y negativas cuando sólo dos tales x1, x2 este método puede realmente obtener un resultado bueno, porque se puede la combinación de X1 y x2 están incluidos en el polinomio, pero para muchos de los problemas de aprendizaje de máquinas sofisticadas, a menudo con más de dos períodos.

Los precios de casa predijeron problema: Supongamos ahora ser procesada es la probabilidad de que una casa en los próximos seis meses, se puede vender, que es un problema de clasificación. Para diferentes casas que hay cientos de posibles características, para este tipo de problemas, si el término cuadrático para incluir todo, en el caso de n = 100, en última instancia, también la cuadrática 5000, con el número de características n aumentará. El número de elementos secundarios está a punto de incrementar la orden n ^ 2, por lo que desea incluir todo el término cuadrático es muy difícil, por lo que este puede no ser una buena idea.
Aquí Insertar imagen Descripción
Y debido a demasiadas entradas, el resultado final es probable que sea demasiado conveniente. Por otra parte, cuando se trata de tantos, también existe el problema de la excesiva operación. Por supuesto, también se puede tratar de incluir sólo un subconjunto de ellos arriba término cuadrático, pero debido a ignorar los muchos artículos relacionados, en el tratamiento de la esquina superior izquierda similar de los datos, es imposible obtener los resultados deseados. 5000 cuadrática término parece tener mucho, pero ahora suponiendo que incluía tres elementos o términos de tercer orden, alrededor de 17.000 término cúbico, esto no es una buena práctica.

Por ejemplo: en un problema en la visión por ordenador. Supongamos que se desea utilizar un algoritmo de aprendizaje automático para entrenar a un clasificador, detecta una imagen para determinar si la imagen es un coche, hemos eliminado una pequeña parte de este cuadro, se amplifica. Por ejemplo, parte de la figura en el cuadro rojo, cuando el ojo humano para ver el coche, el equipo realmente ver es que una matriz de datos, que representa los valores de intensidad de píxel, avísenos valor de brillo de cada píxel de la imagen . Por lo tanto, para la visión por ordenador es la pregunta se convierte en: a decirnos estos valores representan un tirador de la puerta en función del brillo de la matriz de píxeles.
Aquí Insertar imagen Descripción

Específicamente, cuando el algoritmo de aprendizaje construye de la maquina identificador de vehículo, queremos un conjunto de muestras con una etiqueta. Algunas de estas muestras son todo tipo de coches, la otra parte de la muestra es cualquier otra cosa, esta muestra establece la entrada al algoritmo de aprendizaje para entrenar a un clasificador. Después del entrenamiento se ha completado, entramos en una nueva imagen, por lo que el clasificador determina que, idealmente, el clasificador puede reconocer que este es un coche "¿qué es esto?":
Aquí Insertar imagen Descripción

Con el fin de comprender la necesidad de la introducción de los clasificadores no lineales, recogemos algunas de las imágenes y algunas imágenes del coche no automotrices del algoritmo de aprendizaje muestra de entrenamiento, recogemos a cabo un conjunto de píxeles pixel1 y pixel2 de la que cada pieza de la imagen.

Llamar más nuevas muestras en el sistema de coordenadas, utilizando el '' + "indica la imagen del coche por" - "indica una imágenes que no son de automóviles, ahora tenemos un clasificador no lineal para tratar de separar estos dos tipos de muestras.

La dimensión de esta clasificación en el espacio de características es ¿cuánto? Suponemos que el 50 a 50 píxeles, un total de 2500 píxeles. Así, tenemos el número de elementos de un vector de características n = 2500, los comprende el vector de características X luminancia valores de todos los píxeles. Si usamos una imagen de color RGB, cada píxel comprende rojo, verde, y azul sub-píxeles, entonces el número de elementos de nuestros vectores de características se convierte en n = 7,500. Por lo tanto, si tenemos que contener toda lineal cuadrática para resolver este problema, entonces esta es la fórmula en todas las condiciones. XI XJ partir de 2500 píxeles a lo largo con un total de aproximadamente 3 millones. Este coste computacional es demasiado alta no es una buena manera de resolver problemas complejos no lineales.

En segundo lugar, las neuronas y el cerebro

Las redes neuronales razón es que la gente quiere tratar de generar un algoritmo diseñado para imitar el cerebro. En un sentido, si queremos construir el sistema de aprendizaje, ¿por qué no aprender a imitar la máquina más increíble que sabemos - el cerebro humano no?

Redes Neuronales aumento gradual en los años 1980 y 1990, se utiliza ampliamente. Sin embargo, debido a diversas razones, la aplicación a finales de 1990 redujo. Sin embargo, recientemente, la red neuronal tiene una reaparición. Una de las razones: la red neuronal es un algoritmo computacional es un poco demasiado grande. Sin embargo, en los últimos años, probablemente debido a la velocidad de funcionamiento de la computadora más rápida, lo suficiente para ejecutar realmente de las redes neuronales a gran escala. Es por esta razón, y otros que se discutirá más adelante a los factores técnicos. red neuronal de hoy en día para muchas aplicaciones es la tecnología más avanzada.

Cuando se desea simular el cerebro, se refiere a que desee crear el mismo efecto que el papel de la máquina cerebro humano, ¿verdad?

El cerebro puede aprender a ir a ver y no en qué punto de la imagen, aprender a tratar con nuestro sentido del tacto.

Podemos aprender matemáticas, aprender a hacer el cálculo.

Cerebro puede manejar una variedad de cosas increíbles.

Si quieres imitar al parecer, usted tiene que escribir una gran cantidad de diferentes programas informáticos para simular todo, el cerebro nos dice este tipo de cosas maravillosas. Sin embargo, el cerebro no puede suponer que todos estos métodos hacen cosas diferentes. Para darse cuenta de la necesidad de utilizar miles de diferentes programas. En cambio, el cerebro procesa el método sólo requiere un único algoritmo de aprendizaje en él? Aunque esto es sólo una hipótesis.
Aquí Insertar imagen Descripción

Pero permítanme compartir con ustedes algunas de estas pruebas: Esta parte del cerebro, esta zona es una pequeña pieza de rojo su corteza auditiva. Ahora entiende mis palabras, esto es por el oído. Oído recibe señales de sonido y transmite sonido señales a su corteza auditiva es por eso que puede entender mis palabras.

Los neurólogos hacen el siguiente experimento interesante:

① oreja a nervio corteza auditiva es de corte, en este caso, a un cerebro re-animal, de modo que la señal desde el ojo hasta el nervio óptico con el tiempo se extendió a la corteza auditiva. Si se hace esto, los resultados mostraron que la corteza auditiva va a aprender a "ver". Aquí para "ver" cada uno representa el significado de lo que sabemos, así que, si lo hace a un animal, entonces el animal puede completar la tarea de discriminación visual, se puede ver la imagen, y tomar las decisiones adecuadas en función de la imagen, es a través de ellos tejido cerebral de la parcialmente completada.

② la derecha Otro ejemplo: rojo pieza de tejido cerebral es su corteza somatosensorial, que se utiliza para procesar su sentido del tacto, y si usted acaba de hacer un experimento similar reconexión. A continuación, la corteza somatosensorial puede aprender a "ver" este experimento y otros experimentos similares, conocido como experimento reconexión del nervio.

En este sentido, si el cuerpo humano tiene la misma pieza de tejido cerebral puede manejar la luz, sonido o señal táctil, entonces tal vez no es un algoritmo de aprendizaje puede manejar visual, auditiva y táctil, en lugar de la necesidad de ejecutar miles de diferentes programas, o miles de diferentes algoritmos para hacer estas cerebro hecho por miles de cosas bellas, tal vez tenemos que hacer es encontrar algún algoritmo de aprendizaje del cerebro aproximado o real, y luego ponerlo en práctica.

Cerebro a través de auto-estudio para aprender cómo manejar estos diferentes tipos de datos, en gran medida, si podemos adivinar casi cualquier tipo de sensor de acceso a casi cualquier parte del cerebro, entonces el cerebro aprenderá a tratar con él.
Aquí Insertar imagen Descripción

El primer ejemplo: la esquina superior izquierda de esta imagen es un ejemplo de aprender a "ver" con la lengua. Su principio: Esto es en realidad un sistema llamado BrainPort®, que es ahora la FDA (Administración de Drogas y Alimentos de EE.UU.) en los ensayos clínicos, se puede ayudar a las personas ciegas ven las cosas. Su principio es: llevar una cámara de color gris en la frente, mirando hacia delante, será capaz de obtener una imagen en escala de grises de baja resolución de algo delante de usted. Se conecta un cable a la matriz de electrodos se monta en la lengua. Cada pixel es entonces mapeada a una ubicación en su lengua, puede ser el valor de la tensión de alta correspondiente a un punto pixel oscuro, un bajo valor de la tensión corresponde a un punto brillante pixel. A pesar de que ahora se basa en las funciones, se puede hacer uso de este sistema aprendí a usar la lengua para "ver" algo en las decenas de minutos.

Un segundo ejemplo: en la ecolocalización humana o al cuerpo humano sonar, hay dos maneras en que puede lograr. Se puede hacer referencia a romperse o la cabeza de frambuesa, pero hay gente ciegos aceptar este tipo de formación en la escuela, y aprenda a interpretar las ondas de sonido rebotan de un modelo ambiental - que de sonar. Si, después de realizar búsquedas, se encuentran: un poco de vídeo asombroso cuenta la historia de un niño, que fue apartado brutalmente a causa del cáncer del ojo, a pesar de la pérdida de la vista, pero por chasquear los dedos, puede moverse sin chocar con nada. Se puede montar en monopatín, se puede poner la pelota en la canasta, nota que esto no es el ojo de un niño.

Un tercer ejemplo: cinturón toque. Si usted lo usa alrededor de la cintura, la alarma sonará, y siempre zumbido cuando se enfrentan a norte. Puede hacer que la gente tiene un sentido de dirección, de manera similar a las aves perciben dirección.

Hay algunos ejemplos de extraña: Si inserta el tercer ojo en ranas, rana puede aprender a usar ese ojo.

Estos ejemplos son muy sorprendentes si se puede acceder a casi cualquier sensor en el cerebro, algoritmo de aprendizaje del cerebro será capaz de encontrar una forma de datos de aprendizaje y procesa los datos. En un sentido, si podemos encontrar algoritmo de aprendizaje del cerebro, y luego realizar algoritmo de aprendizaje del cerebro o con un algoritmo similar en un ordenador. Tal vez lo mejor sería tratar de hacer nuestro traslado a la inteligencia artificial. El sueño de la inteligencia artificial es un día ser capaz de crear una máquina verdaderamente inteligente.

En tercer lugar, el modelo de red neuronal

Cuando se utiliza la red neuronal, ¿Cómo expresamos nuestras suposiciones o modelos:

Aquí Insertar imagen Descripción
red neuronal fue inventado por la imitación de las neuronas del cerebro o de redes neuronales, por lo tanto, para explicar cómo representar los supuestos del modelo, vamos a ver lo que las neuronas individuales en el cerebro.

Nuestro cerebro está llena de tales neuronas, las neuronas son las células del cerebro, en los que hay dos puntos vale la pena destacar: En primer lugar, hay cuerpos celulares neuronales como este, y segunda neurona tiene un número de neuronas de entrada.

Estas neuronas de entrada, llamados dendritas, podemos pensar en ellos como los cables de entrada. Ellos reciben información de otras neuronas. neuronas de salida llamadas axones, neurales Estas salidas se utilizan para señales de transmisión a otras neuronas o transmisión de información.

Brevemente, las neuronas son una unidad de cálculo. Se acepta un cierto número de información de neuronas de entrada y hacer algunos cálculos. El resultado se transmite entonces a través de su axón a otros nodos, u otras neuronas en el cerebro.

Este es el modelo de todo el pensamiento humano: nuestras neuronas ponen su mensaje está sujeta al cálculo, y otros yuanes neurológicos entregar el mensaje.
Aquí Insertar imagen Descripción

la entrada X1, X2, X3, hθ de salida (x) = 1 / (1 + e (-θTX)), que es un modelo muy simple para simular el trabajo de las neuronas. Nos neuronal modelada como una unidad lógica, similar a las neuronas círculo amarillo, una función de s en forma de función o la lógica como un funciones de activación artificial de neuronas, la terminología de redes neuronales, la función de excitación apenas similares función no lineal g (z ) otra llamada plazo. θ es los parámetros del modelo, a veces llamado "peso", x0 está sesgada células nerviosas, porque x0 es siempre igual a 1, a veces pintado, a veces no dibujado, por ejemplo dependiendo de si beneficioso. , X1 x2 x3 nervio similar a la de entrada, h (x) es la neuronas de salida.
Aquí Insertar imagen Descripción

En realidad, es una colección de estos diferentes red neuronal combinado neuronal. Específicamente, aquí es x2 x0 x1 y x3, neurona a (2) 1 a (2) 2 y un (2) 3 (a (2) 0 es la unidad de polarización adicional, la unidad de entrada de valor nos es 1), la última capa de la función de salida h se supone que el cálculo del resultado (x).

En este ejemplo, tenemos una capa de entrada - la primera capa, una capa oculta - la segunda capa, una capa de salida - capa 3. Pero, de hecho, la capa de entrada o de cualquier capa de la capa de salida no se llama la capa oculta.
Aquí Insertar imagen Descripción

Bajo un superíndice (j) representa el subíndice i: j-ésima capa o el-ésimo i excitación de la neurona, la llamada de excitación (activación) significa un valor de una neurona particular, lee, calcula y salidas.

En este caso, tenemos tres unidades de entrada y tres unidades ocultas. Como control se matriz de parámetros a partir de tres unidades de entrada, la cartografía de tres unidades ocultas. Por lo tanto θ (1) se convierte en una matriz de 3 dimensiones por 4.

Más en general, si una red en las unidades de capa Sj j-ésima, las células j + 1 capa Sj + 1, la matriz [theta] (j), es decir, la capa de matriz de control j a j + 1-capa dimensión mapeo a Sj + 1 * (Sj + 1)

Finalmente, en la capa de salida, tenemos una unidad que calcula h (x) Esto también se puede escribir un (3) 1 (tercera capa, el primer elemento)

En cuarto lugar, el modelo representa

Para lograr cuantificado antes de la difusión de
Aquí Insertar imagen Descripción

Estos valores son una combinación lineal de z, es el valor de entrada θ0 θ1 θ2 θ3 ponderada combinación lineal con x3 x0 x1 x2, puedo definir un (1) igual al vector x. El h calculado (x) del proceso también se conoce como propagación hacia adelante (propagación hacia adelante). Se llama así porque empezamos desde la capa de entrada de excitación a la capa oculta y luego se extendió a la parte delantera y se calcularon capa oculta de excitación. Entonces, antes de que continúe propagándose, y calcular la capa de salida de excitación. El primero de la capa de entrada a la capa oculta y el proceso de excitación a continuación, a la capa de salida, se calculan secuencialmente se denomina propagación.
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción

Ocultamos la capa de entrada, elementos de características visibles a1 a2 a3, ya que son de entrada para aprender. Específicamente, es la función de mapeo desde la primera capa a la segunda capa, la función está determinada por otro conjunto de parámetros θ (1).

Así que en una red neuronal, que no utiliza la función de entrada x1 x2 x3 entrenado regresión logística, regresión logística, pero su formación como entrada. Si a1 a2 a3 concebible para seleccionar un parámetro distinto θ (1) a veces puede aprender algunas características interesantes y complejas. Usted puede obtener una mejor hipótesis, x1 x2 o x3 obtenida al asumir que mejor que la entrada original, la siguiente sección hablará de por qué.

También puede utilizar otros tipos de diagramas para representar la red neuronal, la forma en que las neuronas de redes neuronales están conectados se llama arquitectura de red neuronal, por lo que la arquitectura se refiere a cómo las diferentes neuronas están conectadas entre sí.

V. Aplicación

Ejemplos describe cómo la red neuronal es una función no lineal compleja de la entrada de cálculo

Echemos un vistazo a las dos preguntas sencillas:

Y una primera operación o una segunda operación

PS: números en una línea recta, por ejemplo -30, + 30, es un θ peso. La función g (x) es un patrón de la función en forma de S.

Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción

La siguiente no implementación y operación y luego la primera
Aquí Insertar imagen Descripción

El antes mencionado operación de unión, o para lograr la misma operación
Aquí Insertar imagen Descripción

Las ideas, o con el mismo resultado binario es de dos a uno. Es el mismo que x1, x2 (la primera capa) y después de la operación (una segunda capa de la neurona), el funcionamiento X (una segunda capa de una segunda neurona) y, a continuación, a través de la operación O (tercera neuronas de la capa) después de o para obtener la misma operación (salida).

En la capa de entrada, sólo tenemos los valores de entrada originales, entonces hemos establecido una capa oculta se utiliza para calcular el número de magnitudes de entrada funciones un poco más complejas, y añadiendo otra capa oculta, obtenemos la función un poco más complicado, que es red neuronal se puede calcular en alguna función más compleja de la interpretación visual.

Seis clasificación multiclase

¿Cómo hacer la clasificación multiclase red neuronal, antes de que llegue a la clasificación binaria, que puede ser representado por una salida, 0 o 1.

Para el problema de clasificación multivariante, no usamos una salida expresado como 1,2, ... 10, sino que se representa mediante el vector, de la siguiente manera:

Un ejemplo final, la primera neurona de la capa de salida, indica que es una persona, indica 0 no humano. Las segundas neuronas de la capa de salida, indica que se trata de un automóvil, no automovilístico ... 0 indica que se puede determinar lo que es a través del vector de salida final, es decir, para la clasificación multiclase.

Aquí Insertar imagen Descripción
Referencia 07 Machine Learning (Andrew Ng): hipótesis no lineal (modelo de red neuronal)
Andrew Ng aprendizaje automático - el aprendizaje de redes neuronales

Publicado 80 artículos originales · ganado elogios 140 · vistas 640 000 +

Supongo que te gusta

Origin blog.csdn.net/linjpg/article/details/104108582
Recomendado
Clasificación