Un estudio conjunto de Google y la Universidad de Washington: ¿Por qué hay un problema con la clasificación en el conjunto de datos estándar?

Un estudio conjunto de Google y la Universidad de Washington: ¿Por qué hay un problema con la clasificación en el conjunto de datos estándar?

imagen
Fuente de la imagen: unsplash.com

Autor: REN

En la investigación de aprendizaje automático, los conjuntos de datos forman la base del diseño y la implementación de modelos, y son las principales herramientas para la evaluación comparativa y la evaluación. Sin él, la gran mayoría de la investigación sobre aprendizaje automático se ha convertido en una fuente de agua y un árbol sin raíces.

La recopilación, construcción e intercambio de conjuntos de datos puede reflejar los problemas que se persiguen en el campo del aprendizaje automático y los métodos explorados en el desarrollo de algoritmos. Sin embargo, muchos trabajos de los últimos años han revelado las limitaciones de la actual "cultura de conjuntos de datos", y gradualmente han surgido debates sobre las especificaciones y mejoras de los conjuntos de datos.

Geoffrey Hinton, el padrino del aprendizaje profundo, dijo una vez que la cultura actual de evaluación comparativa del conjunto de datos "puede obstaculizar el desarrollo del pensamiento innovador".

En línea con este punto de vista, el equipo de investigación conjunto de la Universidad de Washington y Google Research publicó la investigación Datos y su (des) contenido: una encuesta sobre el desarrollo y uso de conjuntos de datos en la investigación del aprendizaje automático , que los resumió y analizó uno por uno. Varios problemas expuestos por los métodos prácticos de conjuntos de datos en el campo del aprendizaje automático.

El artículo concluyó que los modelos lingüísticos a gran escala tienen la capacidad de perpetuar los sesgos (especialmente contra una serie de comunidades marginadas) y que los conjuntos de datos mal anotados son parte del problema, por lo que se pide a los investigadores en este campo que sean más cautelosos. conjunto de datos y desarrollar en consecuencia.

Pregunta representativa

En los últimos años, muchos conjuntos de datos de aprendizaje automático convencionales tienen problemas más o menos representativos, centrándose principalmente en el grado y la forma de representación de diferentes grupos sociodemográficos, incluida la raza, el género, el color de la piel, los estereotipos, etc.

Por ejemplo, una gran cantidad de estudios han señalado que la subrepresentación de objetos de piel oscura en los conjuntos de datos de análisis de rostros convencionales, mientras que en los conjuntos de datos de reconocimiento de objetos, las imágenes utilizadas son principalmente de países occidentales.

Un fenómeno similar también apareció en el conjunto de datos de resolución co-referencial en inglés, pero los sujetos se convirtieron en pronombres femeninos como ella / ella, cuya proporción era significativamente menor que la de los pronombres masculinos como él / él.

La prevalencia de estereotipos en la sociedad también tiene un impacto en el conjunto de datos. En el conjunto de datos de procesamiento del lenguaje natural, algunas palabras comunes reflejarán el prejuicio que prevalece en la sociedad, y en el conjunto de datos de visión por computadora, también reflejarán el estereotipo sobre el género.

En 2018, en un conjunto de datos utilizado para clasificar las malas palabras, los investigadores encontraron que las palabras que describen minorías de género como Queer tienen más probabilidades de estar asociadas con etiquetas "malas / tóxicas", lo que significa que es más probable que se etiqueten como "malas palabras". .etiqueta.

imagen
Colección de imágenes ImageNet. Fuente: ImageNet

Incluso el famoso conjunto de datos ImageNet tiene problemas similares. Múltiples estudios han demostrado que ha etiquetado de forma ofensiva millones de fotos humanas y ha utilizado palabras discriminatorias o despectivas por motivos raciales. En determinadas categorías, también han aparecido imágenes de mujeres sin licencia y pornográficas.

Para resolver los problemas anteriores, ImageNet eliminó muchas imágenes y otro conjunto de datos, TinyImages, se eliminó por completo.

"Accesos directos" utilizados por el modelo

Aunque los modelos de aprendizaje profundo han logrado un rendimiento excelente en algunas tareas bastante desafiantes, muchos estudios han demostrado que su rendimiento puede ser solo superficial, obtenido a través de algunos "trucos baratos" en lugar de utilizar capacidades de razonamiento similares a las humanas.

Un estudio en 2020 mostró que las redes neuronales profundas pueden depender de "atajos" para realizar tareas. Los accesos directos suelen deberse a artefactos de anotación (datos creados artificialmente) en el conjunto de datos que hacen que el modelo se sobreajuste a los datos de entrenamiento y se base en heurísticas sin sentido para "resolver" la tarea.

Los llamados artefactos de anotación se refieren a los datos creados y agregados artificialmente en el conjunto de datos. Dado que todo el mundo tiene ciertos pensamientos y hábitos fijos, es fácil ser encontrado por el modelo, como juzgar si la hipótesis y el hecho son contradictorios por el número de palabras negativas.

Este es un "atajo" para el modelo. Aunque los humanos a veces usan métodos similares, corrigen errores basándose en la semántica. Si el modelo solo puede usar este método, entonces sus juicios no se basan en la comprensión de la semántica.

Las investigaciones han demostrado que existen atajos en muchos conjuntos de datos de uso común, y la realización de estos atajos se considera la prueba de habilidades específicas. Por ejemplo, el modelo realiza "comprensión lectora" y "comprensión del lenguaje".

La razón de este tipo de problemas son los supuestos seguidos durante el diseño de la tarea, lo que hace que los etiquetadores de datos no obtengan instrucciones claras y específicas. Para resolver estos problemas, debe reconsiderar el formato utilizado al construir el conjunto de datos. Algunos estudios recientes sugieren que se puede diseñar un nuevo marco de anotaciones para hacer uso del "sentido común" humano. También existen algunos métodos nuevos para evitar correlaciones falsas de la creación y aplicación de conjuntos de datos.

Racionalizar algunos problemas irracionales

Como se mencionó anteriormente, la asociación entre entradas y etiquetas en el conjunto de datos puede no ser 100% significativa; la estructura de tareas problemática puede hacer que el modelo use heurísticas incorrectas para hacer predicciones.

Algunas tareas pueden no resolverse en absoluto, o no pueden resolverse con IA, pero cuando el modelo de aprendizaje automático puede lograr una precisión que excede la línea de base de la prueba por "atajo", el investigador puede pensar que la tarea es razonable, pero de hecho el modelo se utiliza para completar la tarea Las habilidades obtenidas no coinciden con los requisitos del mundo real.

En los últimos años, muchos estudios han intentado predecir atributos como el género y otras características personales subjetivas a partir de fotografías de rostros. La gente ha asumido que la IA puede hacer predicciones. Sin embargo, algunos estudios de seguimiento señalaron que el conjunto de datos que utilizaron era más o menos problemático, lo que provocó que el modelo adoptara atajos sin sentido.

Por ejemplo, un modelo de IA parece ser capaz de reconocer la homosexualidad en función de la apariencia y las características personales, pero en realidad solo aprendió a reconocer los estereotipos homosexuales en el conjunto de datos, incluidos los peinados y otras autoexpresiones.

De hecho, identificar la homosexualidad a través de las características de la apariencia es en sí misma una tarea factible y controvertida, que esencialmente implica la existencia de "características homosexuales", pero este concepto aún necesita verificación científica.

También aparecen problemas similares en el campo del procesamiento del lenguaje natural, como la investigación de IA que predice el coeficiente intelectual de los estudiantes a través de las respuestas de los ensayos. La tarea en sí se basa en la premisa de que "la información contenida en el contenido del ensayo es suficiente para reflejar el coeficiente intelectual". racionalidad de la premisa Las dudas llevaron a problemas en la construcción de la tarea.

Por lo tanto, antes de construir la tarea y evaluar si la tarea se puede completar, los investigadores deben aclarar dos preguntas primero para confirmar si la premisa o suposición es razonable:

1. Si esta tarea debe resolverse;

2. Si esta tarea debe ser resuelta por AI;

De esta manera se evita el uso y la construcción de conjuntos de datos para racionalizar problemas irracionales.

No debería "dejarlo ir"

En el campo del aprendizaje automático, la recopilación, el etiquetado y el registro de conjuntos de datos por parte de los investigadores parecen ir en la dirección del "todo incluido". Una gran cantidad de datos proviene de motores de búsqueda en línea, plataformas de redes sociales y otros fuentes de información en línea.

Esta actitud de "laissez-faire" es diferente del estilo cauteloso adoptado por otras disciplinas basadas en datos, y también ha causado algunos problemas.

El primero es la recopilación de conjuntos de datos. El artículo anterior mencionó la recopilación de datos no autorizada. De manera similar, un nuevo estudio en 2020 mostró que varios conjuntos de datos de análisis facial y visión por computadora convencionales contienen millones de imágenes pornográficas tomadas de la plataforma Flickr. Autorizadas por el usuario.

imagen

El segundo es el etiquetado. Los conjuntos de datos se basan en la anotación manual, y los anotadores proyectarán intencional o no valores subjetivos, juicios y sesgos en los resultados de la anotación. La consecuencia es que el conjunto de datos está sesgado.

Dado que el etiquetado de datos se puede realizar a través del crowdsourcing, algunos investigadores han encontrado un error más común, es decir, los anotadores tratan el etiquetado como un trabajo explicativo, lo que hace que la "etiqueta dorada" en el conjunto de datos se confunda con objetos del mundo real, porque puede no ser la única "verdad fundamental" en el mundo real.

Por último, está el método de registro del conjunto de datos. La falta de una práctica de registro del conjunto de datos estricta y estandarizada conduce al problema de la reproducibilidad.

Algunos investigadores han intentado reconstruir ImageNet para probar la capacidad de generalización de su clasificador. Aunque siguieron métodos conocidos de recopilación y etiquetado de datos, e incluso recopilaron imágenes del mismo período en el que se creó el conjunto de datos, la proporción de distribución de los dos sigue siendo una gran brecha, una de las razones es la desviación en el etiquetado de "verdad fundamental".

¿Existe alguna solución?

El gran tamaño del conjunto de datos de aprendizaje automático hace que sea muy difícil revisar a fondo su contenido, por lo que es difícil saber por dónde empezar a buscar y descubrir los problemas mencionados anteriormente.

El método común actual es confiar en la intuición y los expertos en el dominio, pero las últimas investigaciones también han propuesto nuevas herramientas que pueden revelar pistas falsas (atajos) y otros problemas de contenido a través de las propiedades estadísticas de los conjuntos de datos.

Un equipo de investigación propuso el algoritmo AFLITE, que puede identificar sistemáticamente conjuntos de datos que son fáciles de ser "vacíos" por modelos y difíciles de ser descubiertos por humanos. El algoritmo se aplica a algunos conjuntos de datos de procesamiento de lenguaje natural y los resultados muestran que el modelo entrenado en el conjunto de datos filtrados tiene una mejor capacidad de generalización.

Además, la adición artificial de algunos elementos de interferencia o muestras contrafácticas también puede obtener un mejor límite de decisión, mejorando así la solidez y la capacidad de generalización del modelo. Pero a veces, los "elementos perturbadores" cuidadosamente diseñados para fortalecer la capacidad de generalización del modelo pueden terminar siguiendo el mismo patrón que los datos originales, y el resultado es contraproducente.

Esto muestra que los investigadores deben analizar y repensar cómo crear conjuntos de datos para tareas desde una perspectiva más amplia. Por ejemplo, aceptar que los conjuntos de datos no pueden representar perfectamente la realidad de las tareas del mundo real. En su lugar, deben reducir el impacto de los datos. sesgo y deliberadamente Comience con los sesgos del conjunto de datos de "aprendizaje" (como el algoritmo DRiFT).

Finalmente, algunos estudios recientes han señalado que a veces el ruido en el conjunto de datos puede no ser un sesgo estadístico o errores de etiqueta, sino que refleja la variabilidad del juicio humano, entonces el modelo también debe reflejar estos cambios, en lugar de ignorarlos o descartarlos.

Cultura del conjunto de datos

Finalmente, la cultura general del conjunto de datos en el campo del aprendizaje automático también merece una atención continua.

1. Práctica de evaluación comparativa

La importancia de la evaluación comparativa en el campo del aprendizaje automático es incuestionable, pero la tendencia de "solo héroes orientados al logro" también es controvertida. Geoffrey Hinton, el padrino del aprendizaje profundo, dijo una vez que la cultura actual de evaluación comparativa "puede obstaculizar el desarrollo del pensamiento innovador".

Una de las razones es que los puntos de referencia no pueden demostrar completamente los pros y los contras de un modelo. Por ejemplo, muchos investigadores en el campo del procesamiento del lenguaje natural están pidiendo que se agreguen más criterios de evaluación, incluido el consumo de energía, el tamaño del modelo, los indicadores de equidad y el análisis de errores, etc., para reflejar de manera más completa el rendimiento del modelo.

2. Gestión y distribución de datos

El almacenamiento seguro y la distribución adecuada de datos son cuestiones a las que se debe prestar atención en el campo del aprendizaje automático en la actualidad. En comparación con las ciencias sociales y la investigación médica, el campo del aprendizaje automático aún no ha establecido prácticas de gestión de datos que puedan promoverse y seguirse.

Cuando la investigación involucra información biológica personal sensible, como datos faciales y datos médicos, si no existe un estándar de gestión de datos correspondiente, todos los que tienen la oportunidad de contactarlos pueden infringir los derechos de los propietarios de los datos, ya sea de forma intencionada o no.

También ocurren problemas similares en conjuntos de datos eliminados. La encuesta muestra que después de que los desarrolladores eliminan algunos conjuntos de datos, todavía hay muchos estudios que citan o usan copias de los conjuntos de datos. En ausencia de un mecanismo de gestión eficaz en la actualidad, es difícil detener o responsabilizar a ese comportamiento.

3. Reutilización de datos

La reutilización de los datos de investigación y la reproducibilidad de los resultados de la investigación, incluidos los códigos, también son puntos clave que merecen la atención de los investigadores de aprendizaje automático.

La llamada reutilización de datos se refiere a los datos recopilados para un proyecto de investigación científica que se utilizan para otros fines. Esto implica la ética de los datos e incluso se puede remontar a la cuestión fundamental de "quién es el propietario de los datos". Las discusiones sobre este tema también ayudarán a construir un mecanismo de administración de conjuntos de datos más completo.

4. Cuestiones legales

Como se mencionó anteriormente, los conjuntos de datos en el campo del aprendizaje automático dependen en gran medida de los recursos de Internet, pero los problemas legales pueden estar involucrados en cada enlace, desde la recopilación hasta el etiquetado, desde la capacitación hasta la evaluación.

Por ejemplo, las imágenes de ImageNet provienen de motores de búsqueda y se desconoce la información de derechos de autor y licencia de muchas imágenes. ImageNet afirma que su modelo operativo es similar al de un motor de búsqueda, por lo que no implicará problemas de derechos de autor. Sin embargo, los pasos posteriores, como la distribución, el uso y la modificación de imágenes, aún involucran conceptos legales como el derecho a la privacidad, el derecho a saber y el derecho a retratar.

En la actualidad, las leyes de derechos de autor de varios países del mundo no definen estrictamente el alcance del uso de los conjuntos de datos y no hay muchos precedentes a los que hacer referencia. Por lo tanto, la comunidad académica de IA solo puede confiar en un amplio consenso sobre recopilación, uso y distribución de datos.

La forma de abordar y abordar estos problemas legales en el futuro está directamente relacionada con los derechos e intereses de los administradores de conjuntos de datos, investigadores de IA, propietarios de derechos de autor, objetos de datos y otras partes interesadas.

Referencia:

https://arxiv.org/pdf/2012.05345.pdf

Cuenta oficial: facción de combate de datos, póngase en contacto con el editor para reimprimir ~

Supongo que te gusta

Origin blog.csdn.net/shujushizhanpai/article/details/112624054
Recomendado
Clasificación