Andrew Ng aprendizaje automático (xiv) - reducción de dimensionalidad

14.1 una motivación: la compresión de datos

reducción de dimensionalidad es un método de aprendizaje no supervisado, reducción de dimensionalidad no requiere el uso de datos de la etiqueta.
Uno de los propósitos de reducción de la dimensión es la compresión de datos, compresión de datos sólo puede comprimir los datos utilizando menos memoria o espacio en disco de ordenador, sino también acelerar nuestro algoritmo de aprendizaje.
reducción de dimensionalidad puede ser una serie de características de redundancia buen negocio, tales como: ¿Cuándo hacer el proyecto, hay varios equipos de ingeniería diferentes, quizás el primer equipo del proyecto para darle doscientos característica, el segundo equipo de ingeniería para darle otra trescientos de característica, un tercer equipo de proyecto para darle quinientas característica, más de 1000 cuenta con todos juntos, estas características a menudo hay una gran redundancia, sino también para realizar un seguimiento de un gran número de estas características va a ser extremadamente difícil.
Aquí Insertar imagen Descripción
Las dimensiones características de 2 dimensiones abajo a 1
o menos, por ejemplo, si un elemento de medición de la longitud, el eje horizontal indica el uso cm como resultado de las unidades de medida, y el eje vertical representa el uso de los pies como resultado de las unidades de medida, caracterizado porque los dos sin embargo, una gran cantidad de redundancia debido al redondeo durante resultados de la medición en los resultados de la medición no puede ser igual, por lo que queremos para eliminar la redundancia de la forma de reducción de dimensión de datos

En este punto parece querer encontrar una mayoría, de acuerdo con su línea de otoño siguiente, por lo que todos los datos se pueden proyectar en apenas en línea, a través de esta práctica, que era capaz de medir la posición de cada muestra con el fin de crear una nueva línea en donde Z1, es decir, los datos originales necesito x (1), x (2 ) representa un dos características dimensionales, y ahora sólo un valor Z de las nuevas características pueden ser expresadas por el contenido de las dos características originales
proyectada sobre la muestra por una aproximación lineal, puede ser representado por los datos originales pueden ser establecidas por un valor real para todas las muestras en el que X (1), x (2 ), X (3), X (4) ... x (m ) para indicar el conjunto de muestras de datos, x1, x2 representa el conjunto de datos original para la característica, z (i) representa la i-ésima muestra utilizado por la nueva reducción de la dimensión característica obtenida.
Aquí Insertar imagen Descripción

El 3-dimensional a las características de 2 dimensiones de
la vector tridimensional proyecta sobre un plano bidimensional, obligando a todos los datos en el mismo plano, a los vectores de características bidimensionales. los puntos de datos en tres dimensiones originales en un plano de dos dimensiones, los datos de posición de dos dimensiones que indican los puntos de característica en un plano de dos dimensiones. En el que las características primitivas utilizando tres X1, X2, X3 representa un nuevo uso de las funciones de Z1, Z2 representa, es decir, dos ejes de proyección avión, $ z ^ {(i) } denota la muestra i-ésima a caer a través nuevas características mantenimiento de la paz obtiene.
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción

14.2 La motivación II: Visualización de datos

En la actualidad sólo podemos 2-3 visualización de datos dimensional, una vez que los datos se vuelven grandes dimensiones, no podemos descartar datos de descubrimiento intuitivos. En este punto, reducción de la dimensión se ha convertido en un trabajo muy intuitiva y muy importante.
El siguiente es un informe del nivel de desarrollo nacional, la evaluación del país por 50 indicadores, que queremos ver con los métodos de visualización intuitivas, pero el 50-dimensional de datos que es imposible el uso de procesamiento de gráficos, para los que usamos la reducción de dimensionalidad ser bajada con el método de vista de 2 dimensiones.
Aquí Insertar imagen Descripción
Está integrado en dos nuevas características Z1 y Z2 por medio de la reducción de dimensionalidad de 50 dimensiones, pero la importancia de nuestras nuevas características, no sabemos. Esa reducción de la dimensión sólo puede reducir las dimensiones de las necesidades de datos para volver a descubrir el significado y la definición de las nuevas características.
Aquí Insertar imagen Descripción
Uso caer representación gráfica de las nuevas características de la dimensión:
el eje horizontal representa sobre la fuerza económica general del país / países PIB PIB
eje vertical representa aproximadamente el índice de felicidad / PIB per cápita
Aquí Insertar imagen Descripción

14,3 director principio análisis de componentes

Formulación proncipal de componentes de análisis de problemas
análisis de componentes principales (PCA) es el algoritmo de reducción de dimensión común más
cuando el componente principal de la serie de K = 2, nuestro objetivo es encontrar un plano de proyección de bajas dimensiones, cuando se proyectan todos los datos sobre el plano dimensional baja cuando la esperanza de que todas las muestras el error medio de proyección pueden ser tan pequeños como sea posible. Dos plano de proyección es un plano longitudinal que pasa por el origen el vector desde el plan, el error de proyección se hace perpendicular al plano de proyección desde el vector de características.
Cuando el número de componentes principales K = 1, nuestro objetivo es encontrar un vector de dirección (dirección Vector), cuando ponemos todos los datos sobre el vector, es deseable que todas las muestras el error medio de proyección pueden ser tan pequeños como sea posible. Dirección vector es un vector a través del origen, el error de proyección (error de proyección) desde el vector de características a la longitud del vector de una dirección perpendicular.
Aquí Insertar imagen Descripción
¿Los datos de proyección ilustran en caso figura donde un espacio de dos dimensiones, la figura negro × representa los puntos de muestra originales, es el vector de dirección del error rojo, azul proyección, un punto verde representa los datos de proyección en la dirección del vector. Y objeto es encontrar la PCA es decir, un vector de dirección de tal manera que todos los datos de proyección se proyecta en la dirección del error mínimo vector
característica normalizada Nota PCA antes de su uso, y necesidad de ser normalizado

principio de análisis de componentes principales
un hallazgo abajo una dimensión de un dos datos dimensionales sobre una proyección se puede hacer en el error mínimo del vector de dirección (μ (1) ∈Rn).
Se redujo de los vectores k-dimensional n-dimensional conocer k μ (1), μ (2 ), μ (3) ... μ (k), de modo que los datos originales se proyecta al mínimo lineal error proyección del subespacio de estos vectores.
Aquí Insertar imagen Descripción

PCA y la regresión lineal es diferente
del mecanismo y los resultados punto de vista, al igual que la PCA y la regresión lineal, aparentemente es encontrar una línea o plano puede ser aproximado mediante el ajuste de los datos originales, a pesar de que parecía muy similar pero de hecho completamente diferente.
error proyección Análisis de Componentes Principales se minimiza (ProjectedError), y el intento de regresión lineal es reducir al mínimo el error de predicción. Análisis de componentes principales es un método de aprendizaje no supervisado, la regresión lineal es un método de aprendizaje supervisado, el propósito es predecir el resultado de la regresión lineal, y el análisis de componentes principales no hace ninguna predicción, todas las propiedades características de los datos originales es el mismo en análisis de componentes principales tratada. A continuación, la izquierda es el error de regresión lineal (horizontal eje perpendicular a la proyección), la derecha es el error de análisis de componentes principales (dirección perpendicular al vector de proyección).
Aquí Insertar imagen Descripción

ventajas y desventajas de la PCA
las ventajas de
una gran tecnología ventaja PCA es reducir la dimensionalidad del procesamiento de datos. Efecto podemos ordenar la importancia Vector "pivote" recién determinado, de acuerdo con lo anterior, la necesidad de tener la parte más importante, se omite la dimensión de este último, por lo que se puede lograr que la reducción de la dimensión o la compresión de datos modelo simplificado . Mientras se mantiene el mayor grado de información de los datos originales.
Una gran ventaja de la tecnología PCA es que es completamente límites no paramétricos. PCA durante el cálculo de los parámetros establecidos por completo sin intervención humana o calculados de acuerdo con cualquiera del modelo empírico, el resultado final sólo está relacionada con los datos, el usuario es independiente.
La desventaja
que también puede ser visto como una desventaja. Si usted tiene algún conocimiento previo del objeto a observar, a dominar algunas de las características de los datos, pero no puede intervenir en el proceso por métodos paramétricos, no puede ser el efecto deseado, la eficiencia no es alta.

14,4 director algoritmo de análisis de componentes algoritmo proncipal Análisis de Componentes

Supongamos que los datos originales usando el método PCA de los datos de N-dimensionales establecidos para la K-dimensional
normalización media calculada media UJ todas las características, a continuación, los datos originales restando la media UJ todas las dimensiones de la dimensión, e incluso si xj = xj-μj, Si el número de características en diferentes etapas, pero también tienen que ser dividido por la propia dimensión estándar desviación σ2
matriz de covarianza cálculo de un conjunto de muestras (covarianza de matriz), cada vector N-dimensional de dimensión (Nl), multiplicado por sí mismo dimensión ( 1 N) de transposición, para dar un (N * N) matrices simétricas, y matrices Todas las muestras obtenidas después de añadir el conjunto de muestras de la covarianza matrices [Sigma
es decir .:
[Sigma = 1 N 1mΣi = (X (I)) (x (i)) T

Nota Si x (i) en sí se almacena vector fila, suponiendo que X es la muestra de x (i) una capa de matriz por apilado de las capas de la muestra, se encuentran:
[Sigma XT * X * = 1 m
es decir,
Aquí Insertar imagen Descripción
de cálculo de la matriz de covarianza [características Sigma de vector (vectores propios), se puede usar la descomposición de valor singular (descomposición de valor singular) se resuelve utilizando la sentencia en Matlab [U, S, V] = svd (sigma), donde sigma representa Σ matriz de covarianza es decir, conjunto de muestras,
Aquí Insertar imagen Descripción
la fórmula anterior la matriz T es un vector de dirección que tiene el error más pequeño entre la configuración de datos de proyección. Si queremos que los datos de la N-dimensional dimensión reducida K, que sólo tiene que seleccionar la primera K U en la figura anterior es decir, vectores de U (1), u (2 ), U (3), ... u (K) a partir de, para obtener una dimensión N x K de una matriz, utilizando Ureduce expresa y se obtuvo el requerido por el cálculo de un nuevo z el vector de características (i), es decir
z (i) = UTreduce * x (i)
, donde x (i) es N * 1 vectores de muestra de cota y UT es una matriz de configuración vector de dirección K * N-dimensional, por lo que el resultado final Z ^ {(i)} es un K * 1-dimensional vectores, es decir, el nuevo vector de características por PCA obtenida
Aquí Insertar imagen Descripción
se ha resumido
Aquí Insertar imagen Descripción

14,5 reconstruir la representación comprimida

Reconstrucción de comprimido Representación
usando el PCA, 1000 puede comprimir datos a dimensiones 100-dimensional de características, o datos tridimensionales comprimido a una representación bidimensional. Por lo tanto, si el PCA si la tarea es un algoritmo de compresión debe ser capaz de volver a esta forma antes de la compresión de dicho retorno a una aproximación de los datos originales de alta dimensión. La figura se utiliza para correlacionar las muestras de PCA x (i) a la z (i)
Aquí Insertar imagen Descripción
es decir, si es posible reanudar alguna manera de uso x (1) y X (2) los datos representados por forma de dos dimensiones en el punto z.

El método de
uso de Xappox representa un vector de n dimensiones (n * 1) reconstruido muestras, utilizando Ureduce representa una matriz de característica (n * k) seleccionado usando composición vectores propios PCA algoritmo K, utilizando la reducción de la dimensión PCA indicación Z después de las muestras de datos la nueva función de (k * 1) tiene :.
Xappox la Z * = Ureduce
es decir
Aquí Insertar imagen Descripción

Seleccione el número de componentes principales 14.6

La elección del número de componentes pricipal
error cuadrático medio de la asignación (Promedio Squared proyección Error), y la variación total (Total Variación)
objeto de PCA es reducir el error cuadrático medio del mapeo ,, es decir, para reducir la muestra original x (i) y reconstruida por el medio de las muestras diferencia al cuadrado x (i) appox (de pocas dimensiones punto de mapeo) de
1mΣi = 1m || x (i) x (i) appox || 2
datos de la variación total (variación total): se define como la longitud media de las muestras de datos originales:
1mΣi 1M = || X (I) || 2
medios: por término medio a partir de los datos en bruto del vector cero.

La regla de oro es para seleccionar el valor de K
en una proporción de error cuadrático medio de la cartografía y como variación total es pequeña (típicamente 0,01 selección) seleccionar el valor más pequeño posible de K para esta relación es inferior a 0,01, para profesionales: reservado de datos 99 % de la diferencia (99% de la varianza es retenido)
Aquí Insertar imagen Descripción

Selección de un parámetro K, y 99% de las diferencias es retenido
comúnmente tener otros valores de 0,05 y 0,10, es el 95% y el 90% de la diferencia se conserva.

Número Principal algoritmo de selección de componentes
método menos eficiente
Shilling K = 1, luego se sometió a análisis de componentes principales para obtener Ureduce y z (1), z (2 ), ... z (m), y luego calcular el punto de mapeo x de bajas dimensiones ( i) appox, a continuación, calcula la relación del error cuadrático medio de la asignación y la variación total es menor que 1%. Si no, de nuevo haciendo K = 2, y así sucesivamente, hasta que encuentra el valor mínimo de K puede ser tal que la relación de menos de 1%
Aquí Insertar imagen Descripción

Una mejor forma
y de alguna manera mejor seleccionar K, en el cálculo de matriz de Sigma función de covarianza, llamada "svd", obtenemos tres parámetros:
[la U, S, V] = SVD (Sigma)
, en donde U son vectores propios, y S es una matriz diagonal de elementos de la diagonal S11, S22, S33 ... y los elementos restantes de la matriz son 0 Snn.
Aquí Insertar imagen Descripción
Se puede demostrar (en esta fórmula sólo muestra no se da la prueba), las siguientes dos ecuaciones son iguales, es decir:
Aquí Insertar imagen Descripción
Por lo tanto, la condición original se puede convertir a: Aquí Insertar imagen Descripción
encontrar el valor más pequeño de K condición que satisface de acuerdo con la fórmula .

Recomendaciones de aplicación 14.7 Análisis de Componentes Principales de

Pruebas y conjuntos de validación y debe ser utilizado como un entrenamiento conjunto de vectores de características Ureduce
si estamos siendo una visión por ordenador para obtener una imagen de píxeles de aprendizaje de máquina 100 × 100, es decir, un total de 10000 características.
El primer paso es usar el análisis de componentes principales para la función de compresión de datos 1000
y el conjunto de entrenamiento se ejecuta un algoritmo de aprendizaje
en la predicción, utilizando un conjunto de entrenamiento de la función de aprendizaje proviene de entrada Ureduce x se convierte en un vector de características Z, entonces predicción
Tenga en cuenta que si tenemos un conjunto de montaje de prueba de validación cruzada, también se utiliza conjunto de entrenamiento Ureduce de aprender de

PCA no se resuelve método para el montaje de
un error común el uso de análisis de componentes principales de la situación es que la PCA para reducir el exceso de ajuste (mediante la reducción del número de características). Esto es muy malo, debemos utilizar el proceso de regularización. La razón es que el análisis de componentes principales es sólo aproximada descarta algunas de las características, y no tiene en cuenta cualquier variable de resultado y (es decir, la etiqueta predicho) información, y por lo tanto puede que falte una característica muy importante. PCA, después de todo, hay un método de aprendizaje supervisado, cualquier característica, si el atributo de entrada o etiqueta atributos, que son tratadas de la misma, no tienen en cuenta el impacto de la reducción de la información de entrada en la etiqueta y por PCA parte de descarte de la propiedad de entrada no se hizo en la etiqueta ningún tipo de compensación. Sin embargo, cuando regularización proceso, debido a la regresión logística o redes neuronales o SVM se tendrá en cuenta la regularización y el impacto en las variables de resultado (etiqueta predicho) cambios en los atributos de entrada y tener una retroalimentación, por lo que no perderá la regularización datos importantes características.

PCA no es necesario el método
PCA es cuando grandes volúmenes de datos, por lo que a dimensiones Comprimir datos, los datos reduciendo ocupan memoria y acelerar el uso de entrenamiento de velocidad, o cuando la necesidad de comprender los datos mediante el uso de la visualización de datos, en lugar de una forma requeridos. Por defecto añadido al sistema de aprendizaje automático PCA independientemente de los resultados de PCA no se añade cuando el sistema está mal. Desde el PCA perderá parte de los datos, los datos es tal vez la dimensión crítica, debería primer sistema de aprendizaje automático no considerar el uso de PCA, mientras que sólo los métodos convencionales de formación (algoritmo funciona muy lento o cuando sea necesario ocupar demasiada memoria) antes de considerar el uso del análisis de componentes principales.

Referencias [máquina Andrew Ng aprendizaje Notas] 14 1-2 reducción de dimensionalidad aplica de reducción de dimensiones de compresión de datos y de visualización de datos
Andrew Ng de aprendizaje automático de reducción de dimensionalidad objetivo notas 48-
13 máquina de aprendizaje (Andrew Ng): reducción de dimensionalidad

Publicado 80 artículos originales · ganado elogios 140 · vistas 640 000 +

Supongo que te gusta

Origin blog.csdn.net/linjpg/article/details/104269881
Recomendado
Clasificación