Andrew Ng aprendizaje automático (XV) - Detección de anomalías

problema de motivación

Aquí Insertar imagen Descripción
Modelo de
caja para formar un conjunto de entrenamiento dado, la forma de detectar una cierta entrada x es anormal?

En primer lugar, establecer un modelo basado en el conjunto de datos de entrenamiento, cuando un determinado valor de los datos, los datos se identifica como anormal, lo que indica que se ha identificado como normal cuando está lejos del centro de datos global.
Ejemplos de detección de anomalías

identificación fraude es más comúnmente utilizado para identificar áreas anormales, una serie de representación de vector de característica del usuario i, como inicios de sesión, número de clics una página determinada, el correo y otras veces, de acuerdo con modelar estas características, y luego identificar el fraude basado en un valor umbral. Del mismo modo, el producto está configurado además para identificar la detección anormal.

distribución de Gauss

distribución de Gauss
estimación de parámetros distribución de Gauss

algoritmo de detección de anomalías en base a la distribución de Gauss

Construcción del modelo

Supongamos que cada uno de los datos de ejemplo correspondientes a una característica de distribución de Gauss, el modelo es igual a la distribución conjunta de estas distribuciones. En general, basado en probabilidades estadísticas asociadas multiplicador hipótesis de independencia, pero en la práctica, si el tamaño de la muestra es lo suficientemente grande, la independencia no es tan importante.
Detección de anomalías

Primera función de selección puede ser necesario, los parámetros característicos ajustada, es decir, la media y la varianza de la distribución obtenida para cada función, puede ser representado por un vector de características; construir un modelo con todas las características de la distribución conjunta; dado un nuevo punto de muestra x, de acuerdo con modelo calculado, para ver que no hay más pequeña que el valor umbral ε.
Valores atípicos Ejemplos de identificación

Hay dos características de los datos de los mapas, en el que cada parámetro, p = altura de montaje se representa como un tridimensional superior de la figura.

Desarrollo y evaluación de un sistema de detección de anomalías

Tomar la decisión característica, si desea saber si hay que añadir una nueva característica, se vuelve muy importante, a continuación, realizar la selección de características cuando se puede calcular las características añadidas y sin cualquiera de los casos, cuando se añade un valor de índice de evaluación cuando esta función, devuelve un índice numérico, el algoritmo se puede utilizar para determinar si el efecto se mejora.
evaluación numérica del algoritmo de aprendizaje
Clasificación de datos

Supongamos que hay 10 000 muestras normales y 20 muestras anormales, evaluados de acuerdo con la manera anterior. El conjunto de entrenamiento de parámetros de vectores de características calculados, la estructura del modelo, la proporción de la muestra tienen diferentes métodos de clasificación, pero no lo hacen en el mismo tiempo que el conjunto de validación de prueba.
Evaluación algoritmos

primer modelo construido, el establecimiento de un libro frote distribución de Gauss, a continuación, tomar el modelo mediante la vinculación, ya que la muestra es en realidad con la etiqueta, es decir, con la etiqueta y, a continuación, y para cada muestra en el conjunto de entrenamiento característica puede para ayudarnos a determinar la calidad del modelo. Después de que el modelo, los evalúa algoritmo centralizado de autenticación, verifica un valor de conjunto de muestras x es introducida en el modelo, la predicción basada en el valor de umbral conjunto de validación etiqueta de muestras, el punto normal fue mayor que un umbral, el valor umbral es menor que los valores atípicos. Y luego comparar las muestras etiqueta real, el cálculo de un índice de evaluación, tales como la precisión, recordar, F-Resultado similares.

Por umbral de selección [épsilon] del modelo, puede probar diferentes [épsilon], y luego seleccione el F-score correspondiente al máximo de [épsilon].

Ahora que tenemos con las etiquetas de datos, por qué no aplicar la regresión lineal, regresión logística y otros métodos de identificación de valores atípicos que?

VS aprendizaje supervisado detección de anomalías

Detección de anomalías y el aprendizaje supervisado

detección de anomalías adecuado para las muestras positivas (y = 1) un número muy pequeño, y la muestra negativa (y = 0) de un número muy grande de muestras. Debido a que esta muestra muestras positivas positivo era demasiado pequeño para encontrar la causa de todas las excepciones, si se lleva a cabo el aprendizaje supervisado, no puede aprender todo el conocimiento, y puede haber un nuevo y extraño que sucederá en el futuro, estas anomalías son ahora no observable a , pero no se puede modelar. Por el contrario, la detección de anomalías es un gran número de ejemplos negativos para modelar la muestra de modo que cualquier desviación del modelo puede ser identificado como anormal, y qué razón anormal es Mencionó antes revelador aprendizaje supervisado al cruzar ejemplo, clasificación de correo no deseado, es porque tenemos un número de correo no deseado mucho, se puede concluir que una característica común de correo no deseado, lo que facilita el aprendizaje y algoritmos de modelado.

Por lo tanto, cuando el número de muestras negativas es decir, valores atípicos muy poco tiempo, la muestra negativa puede ser modelado utilizando los datos anomalía método de detección, los puntos de datos se desvía de la normal se consideran valor atípico; es decir, cuando un valor atípico muestra negativa un número muy grande de veces, aprendizaje supervisado algoritmo puede aprender de forma efectiva, así que esta vez se puede elegir el algoritmo de aprendizaje supervisado para identificar los puntos anormales.

Seleccione el algoritmo de la disfunción de uso

características de procesamiento distribuido

Cuando se realiza la detección de anomalías, creemos que la distribución de los datos siguen una distribución de Gauss, a continuación, los parámetros estimados del conjunto de entrenamiento, el modelo construido uniendo luego se multiplica, a continuación, compruebe la autenticación centralizada. Pero, de hecho, una gran cantidad de características que no es consistente con la distribución de la distribución de Gauss, entonces podemos transformar ajustarse a la distribución de Gauss (de hecho, no depurada cuando el número de muestras suficiente número de casos puede, pero si se realiza ajustes, los resultados del modelo sin duda, mejor). Hay muchas maneras de ajustar, los valores de los parámetros se puede mostrar anteriormente, raíz cuadrada logarítmica, etc., mediante el ajuste de los parámetros de exponente, la distribución de datos tiende a ser distribución gaussiana.
 análisis de errores La detección de anomalías

Queremos obtener el modelo de valor mayor en la muestra positiva, el valor negativo más pequeño en la muestra. Podemos tomar este método, llevado a cabo primero en establecer el modelo inicial, y en el modelo de análisis final, cuando el pobre desempeño del modelo en el análisis de lo posible razón es que, en base a estas razones van a seleccionar la función correspondiente. Un problema común es cuando una sola característica, la cantidad de puntos de puntos normales y anormales son grandes, esta vez, se puede añadir nuevas características a una detección de anomalías.
Ejemplo La selección de características
Podemos determinar el problema, construir sus propias características.

distribución gaussiana multivariante

Una detección de anomalías que se extiende
Detección de anomalías no reconocido anormalidades
esquina superior izquierda de la figura de punto verde de datos anormales, típicamente en un tiempo de carga de la CPU inferior, el uso de memoria debe ser bajo, pero los diversos puntos. Cuando se consideran por separado carga de la CPU y uso de memoria cuando dos características, dos coordenadas que se muestran a la derecha, el punto excepción anormal no lo demostró, el punto de vista de la carga de la CPU, el valor es inferior a este punto, hay muchos; los términos de uso de la memoria superior a este punto, hay muchos. Por lo tanto utilizando el algoritmo de detección de anomalía no puede identificar los valores atípicos Esto es porque el tiempo de detección de anormalidad de Gauss, de acuerdo con la línea magenta para dividir la izquierda, más cerca del punto dentro del círculo más normal, principio del círculo interno el punto no es normal. Esto ignora la relación entre diferentes características.

Con el fin de mejorar este reconocimiento anomalía algoritmo es insuficiente, hay un algoritmo de detección de anomalías mejorado, distribución gaussiana multivariante.
Aquí Insertar imagen Descripción
Una distribución gaussiana multivariante
multivariante modelo Gaussiano no es la distribución del tiempo, respectivamente, de cada característica considerada como una distribución de Gauss, pero está integrado en una distribución, el parámetro de distribución indica la matriz de covarianza de la muestra. Como los cambios de parámetros, los cambios de distribución como se muestra en la muestra:
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
cuando la varianza característica cambio mientras
cuando sólo un cambio en la varianza de la función de vector
cuando los dos vectores de características altamente correlacionada
tamaño en los sub elementos de la diagonal de la matriz de covarianza representan dos el coeficiente de correlación de las características, y por lo tanto, cuanto mayor sea el valor, mayor es la correlación de dos características, la distribución de la muestra como se muestra en la figura. Del mismo modo, cuando el coeficiente de correlación es negativa, una correlación negativa indica dos características, la distribución de la muestra es la siguiente:
Aquí Insertar imagen Descripción
en la que una correlación negativa
cuando se cambia el tiempo medio, el pico de la distribución va a cambiar, es decir, el cambio medio es para mover todo el centro de distribución:
Aquí Insertar imagen Descripción
distribución de Gauss cambio medio multivariante

detección de anomalías distribución multivariada Gaussian

Aquí Insertar imagen Descripción
Multivariado de Gauss parámetro de distribución de estimación
de distribución gaussiana multivariante, los parámetros a estimar es el vector media y la función sigmoide.
Aquí Insertar imagen Descripción
Multivariado Gaussian modelo de distribución
después de que los parámetros determinados, el modelo puede ser establecida de acuerdo con la fórmula anterior, dada una nueva muestra x, cuando es más pequeño que el valor umbral ε serán identificados cuando la anormalidad.
Aquí Insertar imagen Descripción
El análisis univariante con el modelo de Gauss de la
distribución gaussiana univariante es en realidad una característica de la muestra independientemente el uno del otro cuando las circunstancias especiales multivariante distribución de Gauss
Aquí Insertar imagen Descripción

En comparación con la distribución gaussiana multivariante tradicional con una distribución de Gauss
en una distribución de Gauss convencional, si las características relacionadas con la mano establecen una relación entre la relación anormal de captura, es posible el uso de detección de anomalías de Gauss convencional, si esto no se ha establecido su propia identificación relación, entonces es adecuado para su uso multivariante distribución de Gauss, capturará automáticamente la relación entre las características, el uso de la formación tradicional hace menor cuando la distribución de Gauss es posible, utilizar distribución gaussiana multivariante, entonces se requiere de datos de entrenamiento a una gran cantidad, la cantidad de conjuntos de datos de formación en el que m es mucho mayor que el número n, en general, m> 10n, mejor, de lo contrario habrá singular. Una ventaja adicional, el tradicional distribución gaussiana simple puede ser calculada, y la cantidad calculada de la distribución gaussiana multivariante aumenta con el número de las características.

Si tuviera una matriz singular en el uso de la distribución gaussiana multivariante puede ser un problema con los siguientes dos aspectos: uno es la cantidad de datos es demasiado pequeño, no llega muy superior al número de Requisitos de la característica; por otra parte se caracteriza por la presencia de redundancia, que es característico de hay una relación lineal entre.
Referencias Andrew Ng aprendizaje automático - Detección de anomalías
Detección de anomalías Andrew Ng notas de aprendizaje automático de
la máquina Andrew Ng aprendizaje notas de la versión en chino: detección de anomalías (detección de anomalías)

Publicado 80 artículos originales · ganado elogios 140 · vistas 640 000 +

Supongo que te gusta

Origin blog.csdn.net/linjpg/article/details/104331948
Recomendado
Clasificación