Métrica de evaluación de número único

Ya sea que esté ajustando hiperparámetros, o probando diferentes algoritmos de aprendizaje, o probando diferentes métodos al construir un sistema de aprendizaje automático, encontrará que si tiene un único indicador de evaluación de número real, su progreso será mucho más rápido, puede ser rápido Decirle, el nuevo método es mejor o peor que el método anterior. Entonces, cuando el equipo comienza un proyecto de aprendizaje automático, a menudo les recomiendo establecer un único índice de evaluación real para el problema.

Inserte la descripción de la imagen aquí

Veamos un ejemplo. Me ha escuchado decir que aplicar el aprendizaje automático es un proceso muy empírico. Por lo general, tenemos una idea, un programa, un experimento, vemos qué tan efectivo es y luego usamos estos resultados experimentales para mejorarlo. La idea, y luego continuar caminando este ciclo, mejora constantemente su algoritmo.

Por ejemplo, para su clasificador de gatos, creó un clasificador antes $UN$ Al cambiar los hiperparámetros y cambiar el conjunto de entrenamiento, ahora ha entrenado un nuevo clasificador B, por lo que una forma razonable de evaluar su clasificador es observar suprecisióny recuperación. Tasa (recordar).

Inserte la descripción de la imagen aquí

Los detalles exactos de la precisión y la recuperación no son muy importantes para este ejemplo. Pero en resumen, la definición de precisión es cuántos de sus clasificadores están marcados como gatos. Entonces si el clasificador $UN$ tiene una tasa de precisión del 95%, lo que significa que cuando su clasificador dice que hay un gato en esta imagen, existe una probabilidad del 95% de que realmente sea un gato.

La tasa de recuperación es, para todas las imágenes de gatos reales, qué porcentaje de su clasificador se identificó correctamente. ¿Cuántas de las imágenes que en realidad son gatos son reconocidas por el sistema? Si el clasificador $UN$ tasa de recuperación de $A$ es del 90%, lo que significa que para todas las imágenes, por ejemplo, su conjunto de desarrollo es una imagen de gato real, el clasificador $UN$ 90% de ellos distinguidos con precisión.

Así que no pienses demasiado en la definición de precisión y recuerdo. Los hechos han demostrado que a menudo existe una compensación entre precisión y recuperación, y ambos indicadores deben tenerse en cuenta. El efecto que desea es que cuando su clasificador dice que algo es un gato, existe una gran posibilidad de que realmente sea un gato, pero para todas las imágenes de gatos, también espera que el sistema pueda La clasificación es cat, por lo que es razonable utilizar la precisión y la recuperación para evaluar el clasificador.

Pero cuando se usa la precisión y la recuperación como indicadores de evaluación, hay un problema, si el clasificador $UN$ funciona mejor en la tasa de recuperación, clasificador $si$ funciona mejor en precisión, y no puede decir qué clasificador es mejor. Si prueba muchas ideas diferentes, muchos hiperparámetros diferentes, desea poder experimentar rápidamente no solo dos clasificadores, sino tal vez una docena de clasificadores, y elegir rápidamente el "mejor", para que pueda obtener de Iterar de nuevo. Si hay dos indicadores de evaluación, es difícil elegir rápidamente uno de dos o diez, por lo que no recomiendo usar dos indicadores de evaluación, precisión y recuperación para seleccionar un clasificador. Solo necesita encontrar un nuevo indicador de evaluación que pueda combinar la precisión y la recuperación.

Inserte la descripción de la imagen aquí

En la literatura de aprendizaje automático, el método estándar para combinar precisión y recuperación es el llamado $F_1$ Puntuación, $F_1$ Los detalles del puntaje no son importantes. Pero informalmente, puedes pensarlo como precisión $PAGS$ y recordar $R$ El valor promedio de $R.$ Formalmente $F_1$ La definición de puntaje es esta fórmula: $\ frac2 {\ frac1P + \ frac1R}$

En matemáticas, esta función se llama precisión $PAGS$ y recordar $R$ La media armónica de $R.$ Pero informalmente, puede considerarlo como el promedio de algún tipo de precisión y recuperación, pero no está calculando el promedio aritmético directo, sino el promedio armónico definido por esta fórmula. Este indicador tiene algunas ventajas al pesar la precisión y la recuperación.

Inserte la descripción de la imagen aquí

Pero en este ejemplo, puede ver inmediatamente que el clasificador $UN$ 's $F_1$ El puntaje es más alto. Suponiendo que la puntuación es una forma razonable de combinar precisión y recuperación, puede seleccionar rápidamente el clasificador $UN$ , eliminar el clasificador $si$ .

Inserte la descripción de la imagen aquí

Descubrí que este es el caso de muchos equipos de aprendizaje automático. Hay un conjunto de desarrollo bien definido para medir la precisión y el recuerdo, además de un indicador de evaluación numérico único, a veces lo llamo un indicador de evaluación real único, que le permite juzgar rápidamente Clasificador $UN$ o clasificador $si$ mejor. Por lo tanto, existe un conjunto de desarrollo, además de un único índice de evaluación real, su velocidad de iteración definitivamente será muy rápida, puede acelerar el proceso de iteración para mejorar su algoritmo de aprendizaje automático.

Inserte la descripción de la imagen aquí

Veamos otro ejemplo: supongamos que está desarrollando una aplicación para gatos para atender a los amantes de los gatos en cuatro regiones geográficas, Estados Unidos, China, India y otras partes del mundo. Suponemos que sus dos clasificadores obtienen diferentes tasas de error en los datos de cuatro regiones geográficas, como el algoritmo $UN$ ha alcanzado una tasa de error del 3% en las imágenes cargadas por usuarios estadounidenses, y así sucesivamente.

Por lo tanto, el seguimiento, el rendimiento de su clasificador en diferentes mercados y regiones geográficas debería ser útil, pero al rastrear cuatro números, es difícil juzgar rápidamente el algoritmo al observar estos valores $UN$ o algoritmo $si$ que es mejor. Si prueba muchos clasificadores diferentes, es difícil observar tantos números y luego elegir el mejor rápidamente. Por lo tanto, en este ejemplo, sugiero que además de realizar un seguimiento del rendimiento del clasificador en cuatro regiones geográficas diferentes, también se calcule el promedio. Suponiendo que el rendimiento promedio es un índice de evaluación real único razonable, puede juzgar rápidamente calculando el promedio.

Inserte la descripción de la imagen aquí

Parece algorítmico $C$ la tasa de error promedio más baja, y luego puede continuar usando ese algoritmo. Debe elegir un algoritmo e iterar continuamente, por lo que su flujo de trabajo de aprendizaje automático a menudo es que tiene una idea, intenta implementarla y ver si la idea es buena o no.

Por lo tanto, este video presenta que tener un solo indicador de evaluación de número real realmente puede mejorar su eficiencia o aumentar la eficiencia de su equipo para tomar estas decisiones. Ahora no hemos discutido completamente cómo establecer efectivamente indicadores de evaluación. En el siguiente video, le enseñaré cómo configurar la optimización y cumplir con los indicadores, veamos el siguiente video.

Curso PPT

Inserte la descripción de la imagen aquí

Jichao Zhao

241 artículos originales publicados · Me gusta9 · Visitantes más de 10,000

carta privada preocupaciones

1.3 Índice de evaluación digital única - Lección de aprendizaje profundo 3 "Proyecto de aprendizaje automático estructurado" - Profesor Stanford Wu Enda

Métrica de evaluación de número único

Curso PPT

Supongo que te gusta