¿No puedes iniciar una investigación académica? 27 guías para evitar pozos de aprendizaje automático, para que sus artículos puedan publicarse sin desvíos

Descripción general del contenido: si es nuevo en el aprendizaje automático y desea realizar investigaciones académicas en este campo en el futuro, no se pierda esta "Guía para evitar errores" diseñada para usted.

Palabras clave: aprendizaje automático investigación científica normas investigación académica

Como académico novato en aprendizaje automático, ¿cómo evitar los obstáculos con elegancia y publicar sus artículos sin problemas?

El profesor asociado Michael A. Lones de la Facultad de Matemáticas e Informática de la Universidad Heriot-Watt (Escocia) publicó un artículo en 2021: "Cómo evitar los obstáculos del aprendizaje automático: una guía para investigadores académicos", que lo analiza en detalle.

Lea el artículo completo (V2):

Los principales intereses de investigación de Michael A. Lones incluyen optimización, ciencia de datos de aprendizaje automático, sistemas complejos e informática no estándar, y aplicaciones en biología, medicina, robótica y problemas de seguridad.
Los principales intereses de investigación de Michael A. Lones incluyen optimización, aprendizaje automático
, ciencia de datos, sistemas complejos e informática no estándar
, con aplicaciones en biología, medicina, robótica y problemas de seguridad.

En este artículo, desde la perspectiva de la investigación académica, combinada con su propia experiencia en investigación científica y experiencia docente, el autor recopila cinco problemas principales que aparecen con frecuencia y requieren atención especial en el vínculo completo del uso de la tecnología de aprendizaje automático, y propone las soluciones correspondientes . .

Para la gente:

Estudiantes o académicos que son relativamente nuevos en el campo del ML y solo tienen conocimientos básicos de ML.

Recordatorio: este artículo se centra en cuestiones que generalmente preocupan a la comunidad académica, como: cómo evaluar y comparar estrictamente modelos para que los artículos se puedan publicar sin problemas.

A continuación, seguiremos el proceso completo de entrenamiento del modelo ML y lo describiremos en etapas.

Fase 1: Antes de crear el modelo

Muchos estudiantes están ansiosos por entrenar y evaluar el modelo tan pronto como aparece, y a menudo ignoran la "tarea" más importante, que incluye:

  • cual es el objetivo del proyecto
  • ¿Qué tipo de datos se necesitan para lograr este objetivo?
  • ¿Los datos tendrán limitaciones? Si es así, ¿cómo solucionarlo?
  • ¿Cómo va la investigación y el desarrollo en esta área y qué se ha hecho?

Estos trabajos previos no se realizan bien y, si ejecuta el modelo apresuradamente, es muy probable que el modelo no pueda probar la conclusión esperada y el trabajo de investigación científica no se publique.

1.1 Comprender y analizar datos

Las fuentes de datos confiables, los métodos de recopilación científica y los datos de alta calidad serán de gran beneficio para la publicación de artículos. Cabe señalar aquí que los conjuntos de datos más utilizados no son necesariamente de buena calidad y también puede deberse a que son fáciles de obtener. **Antes de seleccionar los datos, se llevaron a cabo algunos análisis de datos exploratorios para excluir las limitaciones de los datos.

1.2 No mire todos los datos, separe los datos de la prueba antes de comenzar

La fuga de información del conjunto de pruebas al proceso de capacitación es una razón común por la cual los modelos de aprendizaje automático no logran generalizarse. Por esta razón, en la etapa de análisis exploratorio de datos, no mire los datos de prueba con demasiada atención, evite hacer suposiciones no comprobables intencionalmente o no y limite la generalidad del modelo.

Nota: Está bien hacer suposiciones, pero estas suposiciones solo deben incorporarse al entrenamiento del modelo, no a las pruebas.

1.3 Preparar datos suficientes

Los datos insuficientes pueden reducir la generalización y generalidad del modelo, que depende de la relación señal-ruido (relación señal-ruido, SNR) del conjunto de datos. En el campo de la investigación del aprendizaje automático, un problema común es que la cantidad de datos no es suficiente. En este momento, se pueden utilizar técnicas como la validación cruzada y la mejora de datos para mejorar la disponibilidad de los datos existentes.

1.4 Buscar activamente asesoramiento de expertos en la materia

Los expertos en el campo tienen una rica experiencia en investigación científica y pueden ayudarnos a identificar los problemas a resolver, el conjunto de funciones y el modelo de aprendizaje automático más adecuados, y guiar la publicación de los resultados de nuestra investigación, que pueden lograr el doble de resultado con la mitad de esfuerzo. .

1.5 Hacer un buen trabajo en la investigación literaria

El avance académico es un proceso iterativo, en el que cada estudio proporciona información que puede guiar el siguiente. **Al ignorar investigaciones anteriores, corre el riesgo de perderse información valiosa. **En lugar de escribir una tesis, devanándose los sesos para explicar por qué estudia el mismo tema y por qué no comienza a investigar sobre los resultados existentes, es mejor hacer una revisión de la literatura antes de comenzar a trabajar.

1.6 Pensar en el futuro sobre la implementación del modelo

Si el objetivo final de la investigación académica es crear un modelo de aprendizaje automático que pueda implementarse en el mundo real, las cuestiones de implementación deben considerarse desde el principio, como el impacto de las restricciones ambientales en la complejidad del modelo, si hay un límite de tiempo, cómo para integrarse con sistemas de software, etc.

Fase 2: Creación de modelos de forma fiable

Es muy importante crear modelos de forma organizada, lo que nos permita utilizar los datos correctamente y dar la debida consideración a la elección de los modelos.

2.1 Los datos de prueba no pueden participar en el proceso de capacitación del modelo.

Una vez que los datos de prueba participan en la configuración, entrenamiento o selección del modelo, la confiabilidad y versatilidad de los datos se verán muy afectadas. Esta es también una razón común por la cual los modelos de aprendizaje automático publicados a menudo no son aplicables a los datos del mundo real.

❎ Ejemplo de error (preste atención para evitarlo):

  • Durante la preparación de datos, utilice la información de media y rango de toda la variable del conjunto de datos para escalar la variable (la forma correcta es hacerlo solo en los datos de entrenamiento)

  • Selección de funciones antes de dividir los datos.

  • Evaluar la generalización de múltiples modelos utilizando los mismos datos de prueba.

  • Aplicar aumento de datos antes de dividir los datos de prueba

Para evitar los problemas anteriores, la mejor manera es dividir un subconjunto de datos antes de que comience el proyecto y usar este conjunto de pruebas independiente solo para probar la generalidad de un único modelo al final del proyecto.

Recordatorio: se debe tener especial cuidado al manejar datos de series temporales, porque la división aleatoria de datos puede provocar fácilmente fugas y sobreajustes.

2.2 Pruebe varios modelos diferentes

No existe un modelo universal de aprendizaje automático en el mundo, nuestro trabajo de investigación es encontrar modelos de aprendizaje automático que sean aplicables a problemas específicos. Las bibliotecas modernas de aprendizaje automático, como Python, R, Julia, etc., pueden probar muchos modelos y encontrar el modelo más eficaz con solo una pequeña modificación del código.

Consejos amables:

  • No utilice modelos inadecuados, utilice un conjunto de validación en lugar de un conjunto de prueba para evaluar el modelo
  • Al comparar modelos, optimice los hiperparámetros de los modelos y realice múltiples evaluaciones y corrija múltiples comparaciones al publicar los resultados.

2.3 No utilices modelos inapropiados

Las bibliotecas modernas de aprendizaje automático reducen el umbral para implementar el aprendizaje automático y también nos facilitan la elección de modelos inapropiados, como la aplicación de modelos adecuados para características categóricas a conjuntos de datos que contienen características numéricas o el uso de modelos de regresión cuando llega el momento de utilizar la clasificación. modelo. Al elegir un modelo, debe elegir el que se ajuste lo más posible a su caso de uso.

2.4 El aprendizaje profundo a veces no es la solución óptima

Aunque la red neuronal profunda (DNN) funciona bien en algunas tareas, eso no significa que DNN sea adecuada para todos los problemas, especialmente cuando los datos son limitados, el patrón subyacente es bastante simple o el modelo debe ser interpretable, el rendimiento de Es posible que DNN no sea lo mismo y no tan bueno como algunos modelos antiguos de aprendizaje automático, como el bosque aleatorio y SVM.

2.5 Optimizar los hiperparámetros del modelo.

Los hiperparámetros tienen un gran impacto en el rendimiento de un modelo y, a menudo, deben adaptarse a un conjunto de datos específico. Es posible que realizar pruebas sin rumbo no sea la mejor manera de encontrar hiperparámetros adecuados. Se recomienda utilizar estrategias de optimización de hiperparámetros, como la búsqueda aleatoria y la búsqueda en cuadrícula.

Recordatorio: estas estrategias no son adecuadas para modelos con una gran cantidad de hiperparámetros o altos costos de capacitación. Puede utilizar tecnologías como AutoML y canalizaciones de minería de datos para optimizar la selección de modelos y sus hiperparámetros.

2.6 Se requiere cuidado adicional al optimizar los hiperparámetros y seleccionar funciones

La optimización de hiperparámetros y la selección de características son parte del entrenamiento del modelo. No realice la selección de características en todo el conjunto de datos antes de que comience el entrenamiento del modelo, lo que filtrará información del conjunto de pruebas al proceso de entrenamiento. Una técnica común para optimizar los hiperparámetros o características de un modelo, preferiblemente usando exactamente los mismos datos que se usaron para entrenar el modelo, es la validación cruzada anidada (también conocida como validación cruzada doble).

Fase 3: Evaluar el modelo de manera sólida

La evaluación de modelos irracionales es muy común, lo que puede obstaculizar el progreso de la investigación académica. Por lo tanto, es necesario pensar detenidamente en cómo se utilizan los datos en los experimentos, para medir el rendimiento real del modelo y para informarlo.

3.1 Uso de un equipo de prueba apropiado

Utilice el conjunto de pruebas para medir la generalización del modelo de aprendizaje automático y asegúrese de que los datos del conjunto de pruebas sean adecuados. El conjunto de prueba no debe superponerse con el conjunto de entrenamiento y debe cubrir una gama más amplia de condiciones, como un conjunto de datos fotográficos de un objeto. Si tanto el conjunto de entrenamiento como el de prueba se recopilan al aire libre en un día soleado, el conjunto de prueba no es independiente porque no hay captura de condiciones climáticas más amplias.

3.2 No realice aumento de datos antes de dividirlos

El aumento de datos es beneficioso para equilibrar el conjunto de datos y mejorar la versatilidad y solidez del modelo de aprendizaje automático. Cabe señalar que el aumento de datos solo debe aplicarse al conjunto de entrenamiento y no al conjunto de prueba para evitar el sobreajuste.

3.3 Usando el conjunto de validación

El rendimiento del modelo se mide mediante un conjunto de validación independiente, que contiene un conjunto de muestras que no se utilizan directamente para el entrenamiento, sino que se utilizan para guiar el entrenamiento. Otro beneficio del conjunto de validación es que es posible detenerlo anticipadamente.

3.4 Evaluar el modelo varias veces

Una sola evaluación del modelo no es confiable y puede subestimar o sobreestimar el verdadero desempeño del modelo. Por esta razón, se requieren múltiples evaluaciones del modelo, que en su mayoría implican múltiples entrenamientos del modelo utilizando diferentes subconjuntos de datos de entrenamiento. La validación cruzada es un método particularmente popular y diverso, como la validación cruzada diez veces.

Recordatorio: al informar la media y la desviación estándar de múltiples evaluaciones, se recomienda mantener un registro de puntuación único para la comparación posterior de modelos mediante pruebas estadísticas.

3.5 Conservar algunos datos para evaluar la instancia del modelo final

Quizás la mejor manera de evaluar de manera confiable la generalidad de las instancias del modelo sea utilizar otro conjunto de pruebas. Por lo tanto, si la cantidad de datos es lo suficientemente grande, es mejor conservar algunos y utilizarlos para una evaluación imparcial de las instancias finales del modelo seleccionado.

3.6 No utilice la precisión para conjuntos de datos desequilibrados

Elija cuidadosamente las métricas para evaluar los modelos de aprendizaje automático. Por ejemplo, la métrica más comúnmente utilizada para los modelos de clasificación es la precisión, que funciona bien si el conjunto de datos está equilibrado (cada categoría está representada por un número similar de muestras en el conjunto de datos); la precisión puede ser una métrica muy engañosa si tiene un conjunto de datos desequilibrado.

En este caso, es mejor utilizar indicadores que no sean sensibles al desequilibrio en el tamaño de la clase, como la puntuación F1, el coeficiente de Cohn-Kappa (κ) o el coeficiente de correlación de Matthews (MCC).

Fase 4: Comparar modelos de manera justa

Comparar modelos es fundamental para la investigación académica, pero compararlos de manera injusta y publicarlos puede sesgar a otros investigadores. Por lo tanto, debe asegurarse de evaluar diferentes modelos en las mismas condiciones y utilizar pruebas estadísticas correctamente.

4.1 Para el modelo, no es que cuanto mayor sea el número, mejor será el rendimiento

Esta expresión aparece a menudo en los artículos: "La tasa de precisión en estudios anteriores fue del 94% y la tasa de precisión de este modelo llega al 95%, por lo que es mejor". Hay varias razones por las que un número mayor no equivale a un mejor modelo . Si el modelo se entrena o evalúa en diferentes particiones del mismo conjunto de datos, la diferencia en el rendimiento puede ser pequeña; si se utiliza un conjunto de datos completamente diferente, existe la posibilidad de una gran diferencia. en el desempeño. No realizar la misma cantidad de optimización de hiperparámetros también puede afectar la diferencia en el rendimiento del modelo.

Por lo tanto, para comparar científicamente el rendimiento de dos modelos, los modelos deben optimizarse al mismo grado, evaluarse varias veces y luego probarse estadísticamente para determinar si la diferencia de rendimiento es significativa.

4.2 Comparación de modelos con pruebas estadísticas

Se recomiendan pruebas estadísticas para comparar la diferencia de rendimiento de dos modelos. En términos generales, las pruebas para comparar modelos de aprendizaje automático se dividen en dos categorías: la primera categoría se usa para comparar instancias de modelos similares, como cuando se comparan dos árboles de decisión entrenados, se puede usar la prueba de McNemar; la segunda categoría es adecuada para más modelos generales Para realizar comparaciones, como comparar árboles de decisión y redes neuronales, cuál es más adecuado, utilice la prueba U de Mann-Whitney.

4.3 Corrección de comparaciones múltiples

Comparar más de dos modelos con una prueba estadística es algo complicado; una prueba por pares múltiples es como usar el conjunto de pruebas varias veces, lo que puede llevar a interpretaciones de significancia demasiado optimistas.

Se recomienda una corrección de pruebas múltiples para solucionar este problema, como la corrección de Bonferroni.

4.4 No confíes demasiado en los resultados de los puntos de referencia de la comunidad

Para problemas en ciertos campos, muchas personas elegirán conjuntos de datos de referencia para evaluar el rendimiento de nuevos modelos de aprendizaje automático, porque todos usan los mismos datos para entrenar y probar modelos, por lo que la comparación será más intuitiva. Este enfoque tiene algunos inconvenientes importantes.

En primer lugar, si el conjunto de prueba tiene acceso ilimitado, no hay garantía de que otra persona no lo esté utilizando como parte del proceso de capacitación, lo que puede generar resultados demasiado optimistas. Además, incluso si todos los que usan los datos usan el conjunto de prueba solo una vez, en general la comunidad usa el conjunto de prueba muchas veces, lo que puede llevar a un sobreajuste del modelo. Por esta razón, los resultados de los conjuntos de datos de referencia deben interpretarse con cautela y la mejora del desempeño debe juzgarse razonablemente.

Fase 5: Informe de resultados

La investigación académica debe contribuir al conocimiento, y esto requiere informar sobre el panorama general de los esfuerzos de investigación, incluyendo lo que ha tenido éxito y lo que ha fracasado. El aprendizaje automático a menudo se asocia con compensaciones y es raro que un modelo sea mejor que otro en todos los aspectos. Por lo tanto, esto debe reflejarse al informar los resultados.

5.1 La presentación de informes debe ser transparente

Compartir todo el trabajo de investigación de forma transparente facilita que otros repliquen el experimento y que las personas comparen modelos. Hágase bien a sí mismo y a los demás documentando sus experimentos con claridad y escribiendo código limpio. La comunidad de aprendizaje automático presta cada vez más atención a la reproducibilidad de los experimentos y el flujo de trabajo no está bien documentado, lo que puede afectar publicaciones posteriores.

5.2 Múltiples formas de informar el desempeño

Un enfoque más riguroso al evaluar el rendimiento del modelo es utilizar múltiples conjuntos de datos, lo que puede ayudar a superar cualquier obstáculo asociado con un único conjunto de datos y brindar una imagen completa del rendimiento del modelo. Es una buena práctica informar múltiples métricas para cada conjunto de datos, ya que diferentes métricas pueden presentar resultados diferentes, lo que aumenta la transparencia del trabajo.

5.3 Generalización únicamente sobre datos

No saque conclusiones inválidas que puedan desviar a otros investigadores. Un error común es publicar conclusiones generales que no están respaldadas por los datos para entrenar y evaluar modelos. El hecho de que un modelo funcione bien en un conjunto de datos no significa que funcionará bien en otros conjuntos de datos. Si bien se pueden obtener conocimientos fiables mediante el uso de múltiples conjuntos de datos, siempre existen límites a lo que se puede estudiar e inferir a partir de experimentos. No exageres los descubrimientos, sé consciente de las limitaciones.

5.4 Notificación cautelosa de diferencias significativas

Las pruebas estadísticas analizadas anteriormente pueden ayudar a examinar las diferencias entre modelos. Sin embargo, las pruebas estadísticas no son perfectas y pueden subestimar o sobreestimar la importancia del modelo, lo que da como resultado falsos positivos o falsos negativos. Además, cada vez más estadísticos abogan por abandonar el umbral de confianza (umbral de confianza) e informar directamente el valor p para determinar la importancia del modelo.

Además de la significación estadística, otra consideración es si la diferencia entre los dos modelos es realmente significativa. Porque siempre que la muestra sea suficiente, siempre se pueden encontrar diferencias significativas, incluso si la diferencia de rendimiento real es insignificante. Por lo tanto, al juzgar la importancia, se puede medir el tamaño del efecto (tamaño del efecto), incluida la estadística d de Cohen (más general), Kolmogorov Smirnov (mejor efecto, recomendado), etc.

5.5 Preste atención al principio de funcionamiento del modelo.

El modelo entrenado contiene mucha información válida, pero muchos autores solo informan los indicadores de desempeño del modelo, sin explicar el principio del modelo. El propósito de la investigación no es obtener una tasa de precisión ligeramente más alta que otros, sino resumir el conocimiento y compartirlo con la comunidad de investigación, aumentando así la posibilidad de publicación de los resultados del trabajo, como proporcionar visualización de modelos para modelos simples como árboles de decisión. ; para redes neuronales profundas Para modelos complejos como redes, considere utilizar la tecnología XAI (Inteligencia artificial explicable) para extraer información relevante.

Lo anterior es el contenido completo de la "Guía para evitar errores". Espero que todos los estudiantes nuevos en el aprendizaje automático puedan conservar bien este libro, leerlo con frecuencia, encontrar la dirección de la investigación, elegir el tema y publicar el artículo como ¡tan pronto como sea posible!

Esperamos tus buenas noticias ~

Enlace original

参考链接: Cómo evitar los errores del aprendizaje automático: una guía para investigadores académicos

-- encima--

Supongo que te gusta

Origin blog.csdn.net/HyperAI/article/details/128866164
Recomendado
Clasificación