Competición de algoritmos de aprendizaje automático Combate real--2, modelado de problemas

Tabla de contenido

1. Comprensión de las preguntas del concurso

1. Comprensión de las preguntas del concurso

2. Comprensión de datos:

3. Indicadores de evaluación (clasificación y regresión)

ejercicio de pensamiento

Cuando los concursantes obtienen el tema de la competencia, lo primero que deben considerar es el modelado del problema y, al mismo tiempo, completar la construcción del canal del modelo de referencia, para que puedan obtener comentarios sobre los resultados en la primera vez para ayudar al trabajo de seguimiento Además, la existencia de la competencia depende de escenarios comerciales reales y datos complejos Los concursantes generalmente tienen muchas ideas sobre esto, pero la cantidad de verificaciones de los resultados de la presentación en línea a menudo es limitada, por lo que es necesario dividir razonablemente el conjunto de entrenamiento y el conjunto de verificación y construir una verificación fuera de línea creíble se vuelve muy importante. Esta es también la base para garantizar la generalización del modelo.

El modelado de problemas en la competencia se puede dividir en tres partes: comprensión del problema, selección de muestras y estrategia de evaluación fuera de línea.

1. Comprensión de las preguntas del concurso

1. Comprensión de las preguntas del concurso

La comprensión del problema de la competencia es en realidad resolver el problema de manera intuitiva y analizar el método para resolver el problema. El trasfondo del problema de la competencia es el principal punto de dolor del problema de la competencia. ,
para el análisis de negocios reales, podemos usar nuestro propio conocimiento previo para realizar un análisis preliminar, que allana el camino para la siguiente parte
 

2. Comprensión de datos:

Podemos dividir la comprensión de datos en dos partes, que son la capa de base de datos y la capa de descripción de datos.En la etapa de exploración, comprender mejor los datos y descubrir información clave de los datos.

3. Indicadores de evaluación (clasificación y regresión)

 

 

 En los conjuntos de datos reales, a menudo existe un desequilibrio entre las muestras positivas y negativas, es decir, hay muchas más muestras negativas que positivas, o por el contrario, y la distribución de muestras positivas y negativas en el conjunto de prueba también puede tener un buena característica de la curva ROC a lo largo del tiempo, Es decir, en este caso, todavía puede permanecer sin cambios. Sin embargo, la curva ROC no es común en las competiciones. Por el contrario, se puede decir que la curva AUC es nuestro viejo amigo, que Aparece a menudo en problemas de clasificación.


AUC es un indicador de evaluación extremadamente común en los servicios de clasificación de búsqueda, recomendación y publicidad en Internet. Se define como el área bajo la curva ROC, ya que la curva ROC generalmente se encuentra por encima de la recta y=x, por lo que el rango de valores está entre 0,5 y 1. La razón por la que se usa AUC como índice de evaluación es porque la curva ROC no indica claramente qué clasificador es mejor en muchos casos, y AUC es un valor, y cuanto mayor es el valor, mejor es el clasificador. Vale la pena mencionar la propiedad de clasificación de AUC. En comparación con indicadores como la tasa de precisión y la tasa de recuperación, el indicador AUC en sí no tiene nada que ver con el valor absoluto de la probabilidad predicha por el modelo. Solo se enfoca en el efecto de clasificación entre muestras, por lo que es especialmente adecuado como indicador de evaluación. para modelar problemas relacionados con la clasificación. AUC es un valor de probabilidad. Seleccionamos aleatoriamente una muestra positiva y una muestra negativa. La probabilidad de que el algoritmo de clasificación actual clasifique la muestra positiva por delante de la muestra negativa de acuerdo con la puntuación calculada es el valor AUC. Por lo tanto, cuanto mayor sea el valor de AUC, más probable es que el algoritmo de clasificación actual clasifique las muestras positivas por delante de los valores de muestra negativos, es decir, una mejor clasificación.

La pérdida logarítmica es principalmente para evaluar si la tasa raíz predicha por el modelo es lo suficientemente precisa. Presta más atención al grado de concordancia con los datos observados, mientras que AUC evalúa la capacidad del modelo para clasificar las muestras positivas al frente. Debido a los diferentes énfasis de la evaluación de los dos indicadores, los indicadores de evaluación seleccionados serán diferentes debido a los diferentes temas considerados por los concursantes. Para el problema de la estimación del CTR publicitario, si se considera el efecto de la clasificación publicitaria, Wu puede elegir AUC para que no se vea afectado por los valores extremos. Además, la pérdida logarítmica refleja la desviación promedio y se inclina más a dividir con precisión la clase con una gran cantidad de muestras.

Aunque el error absoluto medio resuelve el problema de la parte inferior positiva y negativa de la suma de los residuos y puede medir mejor la calidad del modelo de regresión, pero la existencia del valor absoluto hace que la función no sea suave y no puede ser derivada en algunos puntos, es decir, el error absoluto medio no es continuamente derivable de segundo orden, y la derivada de segundo orden siempre es 0

Incluso en la competencia real, los datos proporcionados por el organizador pueden tener problemas de calidad que causen mucho dolor de cabeza a los concursantes
. Sin duda, esto tendrá un gran impacto en los resultados finales de la predicción, por lo que es necesario considerar cómo seleccionar los datos de muestra apropiados para el
entrenamiento. Entonces, ¿cómo podemos seleccionar las muestras apropiadas? Antes de responder a esta pregunta, echemos un vistazo a los detalles que afectan los resultados
Cuál es la razón, aquí hay cuatro razones principales: respectivamente, el gran conjunto de datos afecta seriamente el rendimiento del modelo, el ruido y los
datos anormales conducen a una precisión insuficiente, los datos de muestra redundantes o los datos irrelevantes no aportan beneficios al modelo, y
la distribución desigual de muestras positivas y negativas conduce a datos sesgados.

Ejercicio de pensamiento:


(2 mensajes) Indicadores de evaluación y funciones de pérdida en aprendizaje automático_Blog de Yasin_-blog de CSDN_Función de pérdida de similitud de coseno https://blog.csdn.net/Yasin0/article/details/94435677

Resumen de las 7 principales funciones de pérdida en el aprendizaje automático (con Python Drill) - Zhihu (zhihu.com) https://zhuanlan.zhihu.com/p/80370381

[Aprendizaje profundo] Un artículo para comprender la función de pérdida común del aprendizaje automático (Función de pérdida) - Tencent Cloud Developer Community - Tencent Cloud (tencent.com) https://cloud.tencent.com/developer/article/1165263

Aprendizaje automático: ¿la diferencia entre la función de pérdida (pérdida) y el índice de evaluación (métrica)? - Zhihu (zhihu.com) https://zhuanlan.zhihu.com/p/373032887

Función de pérdida VS índice de evaluación: venga a Anhui pronto: jardín de blogs (cnblogs.com) https://www.cnblogs.com/pythonfl/p/13705143.html

Ideas para resolver el problema de la clasificación desequilibrada de muestras de aprendizaje automático - Zhihu (zhihu.com) https://zhuanlan.zhihu.com/p/84322912

Cuando las categorías de muestra del conjunto de datos están desequilibradas, ¿cómo se debe realizar el conjunto de entrenamiento y prueba? - Zhihu (zhihu.com) https://www.zhihu.com/question/373862904

¿Cómo elige la "validación cruzada" el valor K? - Zhihu (zhihu.com) https://zhuanlan.zhihu.com/p/31924220

Validación cruzada y ajuste de hiperparámetros: cómo optimizar su modelo de aprendizaje automático - Zhihu (zhihu.com) https://zhuanlan.zhihu.com/p/184608795

(2 mensajes) Ventajas y desventajas de la validación cruzada k-fold_【Aprendizaje automático】Conjunto de entrenamiento, conjunto de verificación, conjunto de prueba; verificación y validación cruzada..._Blog lame de Hurrah-CSDN blog https://blog.csdn.net /weixin_35988311/artículo/detalles/112540577

¿Realmente entiendes la validación cruzada y el sobreajuste? - Solong1989 - Jardín de blogs (cnblogs.com) https://www.cnblogs.com/solong1989/p/9415606.html

Clasificación y regresión (cómo transformar problemas de clasificación en resolución de problemas de regresión)_matrix_studio's blog-CSDN blog_Cambiar la red de clasificación a la red de regresiónhttps: icono-predeterminado.png?t=N0U7//blog.csdn.net/matrix_studio/article/details/121100472

Supongo que te gusta

Origin blog.csdn.net/m0_63309778/article/details/128800775
Recomendado
Clasificación