1.2 Desviación / varianza - profundidad de enseñanzas "Mejora de DNN" -Stanford profesor Andrew Ng

Desviación / varianza (Bias / Varianza)

Me di cuenta de que los profesionales de aprendizaje casi todas las máquinas esperan un profundo conocimiento de sesgo y la varianza, estos dos conceptos fácil de aprender pero difícil de dominar, incluso si piensan que ya entender los conceptos básicos de sesgo y la varianza, siempre hay algunas cosas nuevas inesperadas surgen . estudio a fondo sobre el tema del error, otra tendencia es una solución de compromiso estudio de sesgo y la varianza es muy poco profunda, es posible que haya oído hablar de estos dos conceptos, pero rara vez pesan estudio en profundidad de error de ambos, siempre tenemos en cuenta la desviación y la varianza, respectivamente, , pero rara vez se habla compensaciones desviación y la varianza, vamos a echar un vistazo más de cerca.

Aquí Insertar imagen Descripción

Asumiendo que esto es el conjunto de datos, si el conjunto de datos para adaptarse a una línea recta, se puede conseguir un ajuste de regresión logística, pero no es un buen ajuste a los datos, que es una desviación alta ( alta BIAS caso), que se llama "menos aptos" ( underfitting ).

Por el contrario, si nos ajustamos a un clasificador muy complejas, tales como la profundidad de las redes neuronales o red neuronal con unidades ocultas, podría muy adecuado para este conjunto de datos, pero no parece un método clasificador buen ajuste mayor varianza ( alta varianza ), overfitting de datos ( overfitting ).

En el medio, puede haber alguna figura de esta manera, la complejidad moderada, equipamiento modesto clasificador de datos, esto se ve más razonables de datos ajustados, lo que llamamos "moderadamente en forma" ( la derecha justo ) overfitting y es pobre ajuste entre la categoría intermedia.

Aquí Insertar imagen Descripción

Sólo en tal X 1 x_1 y X 2 x_2 En el que el conjunto de datos en dos dimensiones, podemos representar los datos, el sesgo visual y varianza. En los datos espaciales multidimensionales, renderizado y visualización de límite de segmentación de datos no pueden ser alcanzados, pero podemos través de varios indicadores para estudiar la desviación y la varianza.

Aquí Insertar imagen Descripción

Seguimos la clasificación de imagen del gato este ejemplo, el de la izquierda es la imagen del gato, no el más adecuado. Dos clave sesgo de los datos y la varianza apreciará que el error de conjunto de entrenamiento ( Tren de juguete de error ) y el error conjunto de validación ( Dev error SET ), con el fin de facilitar la discusión, asumir que podemos identificar el gato imagen, nos identificamos con el ojo desnudo no es casi de error.

Asume que el error es del 1% del conjunto de entrenamiento, con el fin de facilitar la discusión, se supone que el conjunto de validación fue del 11% de error, se puede ver muy bien siempre y cuando el conjunto de entrenamiento, y el conjunto de validación dispuesto relativamente pobre, es posible que el sobreajuste del conjunto de entrenamiento, en cierta medida, conjunto de validación y no aprovechar al máximo el papel conjunto de validación cruzada, como en este caso, lo que llamamos "alta varianza."

Error al ver el error conjunto de entrenamiento y validación del conjunto, que será capaz de diagnosticar si el algoritmo tiene una alta varianza. Ese error de entrenamiento medida y conjuntos de validación puede llegar a conclusiones diferentes.

Suponiendo que el error de conjunto de entrenamiento es del 15%, se escribe el error de formación establecidos en la primera línea, el error conjunto de validación es del 16%, suponiendo el caso de la tasa de error humano es casi 0%, la gente ve estas imágenes dicen que no es un gato. Algoritmos no están bien entrenados en el conjunto de entrenamiento, si se ajusta a los datos de entrenamiento no es muy alta, los datos son menos aptos, podemos decir que esta desviación algoritmo es relativamente alta. En lugar de ello, produjo los resultados del conjunto de validación es la tasa de error razonable, validación centralizada de sólo el 1% más conjuntos que el entrenamiento, por lo que este algoritmo de desviación alta, ya que ni siquiera se encaja en el conjunto de entrenamiento, que está en una deslice la imagen más a la izquierda es similar.

Como otro ejemplo, el error de conjunto de entrenamiento es 15%, la desviación es bastante alto, sin embargo, la validación y evaluación del conjunto de resultados que es peor, la tasa de error del 30%, en cuyo caso, yo creo que este algoritmo es alto sesgo, porque los resultados de la formación establecido no son satisfactorios, pero también de alta varianza, que es la varianza de la desviación situación muy mala.

Mira el último ejemplo, el error de conjunto de entrenamiento es de 0,5%, 1% de error es un conjunto de validación, el usuario ve tal resultado va a ser muy feliz, gato clasificador tasa de error de sólo el 1%, la desviación y la varianza son muy bajos.

Una cosa que me gustaría mencionar en este sencillo, concreto dejado atrás curriculum hablando, estos análisis se basan en la previsión supuesto, suponiendo que el ojo humano distinguir tasa de error cercano al 0%, en general, el error óptimo es también conocido como bayesiano de error, por lo tanto, el error óptimo cercano a 0%, no voy a entrar en detalles aquí, si el error bayesiano óptimo o de error es muy alto, tal como el 15%. Veamos este clasificador (error del 15%, el 16% de error de validación de formación), una tasa de error del 15% en el conjunto de entrenamiento también es muy razonable, no es alta desviación, la varianza es también muy bajo.

Aquí Insertar imagen Descripción

Cuando todos los clasificadores no se aplican, cómo analizar el sesgo y la varianza es? Por ejemplo, la imagen es muy vaga, incluso el ojo humano, o el sistema no puede reconocer con precisión las imágenes, en este caso, el error óptima será mayor, entonces el análisis tendrá que cambiar algo, no discutimos estos matices, error de enfoque mediante la visualización del conjunto de entrenamiento, se pueden determinar los datos para adaptarse a la situación, al menos para los datos de entrenamiento así, se puede determinar si hay un problema de sesgo, y luego ver qué tan alto índice de error. Al término de la formación conjunto de entrenamiento, comenzar a utilizar la verificación conjunto de validación, podemos determinar si la variación es demasiado alta, ajuste del conjunto de entrenamiento para validar este proceso, podemos determinar si la variación es demasiado alto.

Aquí Insertar imagen Descripción

La premisa del análisis anterior son hipotéticas error básico es muy pequeña, la formación y conjuntos de validación de datos de la misma distribución, como premisa sin estos supuestos, el proceso de análisis más complicado, vamos a discutir más adelante en el plan de estudios.

diapositiva anterior, estamos hablando de un alto sesgo y varianza alta, debemos tener una cierta comprensión de la clasificación de la calidad, de alto sesgo y la varianza son lo que parecen? Este es el caso de las dos medidas son muy malas.

Aquí Insertar imagen Descripción

Hemos dicho antes, esta clasificación, se genera un sesgo alta, debido a su bajo grado de ajuste a los datos, tales como clasificador aproximadamente lineal, datos de baja encajan.

Aquí Insertar imagen Descripción

Pero si miramos un poco de cambio de clasificación, uso trazos de color púrpura a cabo, será más ajustado y parte de los datos, con un clasificador dibujado la línea púrpura con polarización alta y alta varianza, la desviación es alta, ya que es casi un clasificador lineal, no se ajustaba a los datos.

Aquí Insertar imagen Descripción

Esta curva cuadrática ajusta a los datos también.

Aquí Insertar imagen Descripción

Esta curva es muy alta flexibilidad de la porción intermedia, ajustándolo sobre las dos muestras, un alto sesgo de tales clasificador, porque es casi lineal.

Aquí Insertar imagen Descripción

El uso de la función de curva cuadrática o funciones miembros generar alta varianza, de modo que se ajusta a la curva de la alta flexibilidad tanto del activo y las muestras de datos de error intermedio.

Puede parecer poco natural, desde el punto de vista de dos dimensiones no son naturales, sino por los datos de alta dimensión, zona de alto datos de alguna desviación, algunos de la zona de datos de alta varianza, a fin de utilizar esta clasificación en una de alta dimensión miradas de datos no tan descabellada.

En resumen, hablamos acerca de cómo comprobar los algoritmos de error generada y de error de validación establecidos en el conjunto de entrenamiento producidos por el algoritmo de análisis de algoritmo de entrenamiento para diagnosticar la existencia de alto sesgo y varianza alta, si los dos valores son altos, o ambos valores no es muy alta, la siguiente decisión que tiene que hacer el trabajo, la próxima clase, serán algunos de los métodos básicos de la máquina de algoritmos de aprendizaje para explicar la situación de acuerdo con el nivel de sesgo y la varianza, los algoritmos de optimización para ayudar a la gente algoritmo más sistemática sobre la base de las circunstancias específicas de sesgo y la varianza, vemos la próxima lección.

Por supuesto PPT

Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción
Aquí Insertar imagen Descripción

Ha publicado 187 artículos originales · alabanza 7 Ganador · vistas 10000 +

Supongo que te gusta

Origin blog.csdn.net/weixin_36815313/article/details/105386816
Recomendado
Clasificación