[Aprendizaje profundo] Sentido común del etiquetado de datos

1. Descripción

        En el aprendizaje profundo, los conjuntos de datos y el etiquetado de conjuntos de datos son enlaces esenciales en los proyectos de IA, y es necesario que los desarrolladores comunes comprendan esta serie de procesos de manera sistemática. Para los desarrolladores anteriores, este artículo les explicará específicamente el problema de la anotación de datos.

2. Tipos de etiquetas de datos

2.1 Visión artificial

        Desarrollar y etiquetar datos de alta calidad facilita que los modelos de visión artificial procesen imágenes y extraigan información relevante. Se puede entrenar a los modelos para que organicen las imágenes en función de factores como el tamaño de píxel, el color o el tema. Con este tipo de datos, los algoritmos de aprendizaje automático pueden reconocer rostros , detectar objetos, clasificar imágenes y analizar imágenes digitales.

 

2.2 Procesamiento del lenguaje natural

        Para ayudar a los modelos de procesamiento de lenguaje natural a encontrar y procesar información textual, los datos se pueden etiquetar etiquetando todo el archivo o etiquetando partes específicas del texto con cuadros delimitadores. Los modelos pueden aprovechar estos datos etiquetados para realizar análisis de sentimientos , identificar nombres propios y extraer texto de imágenes, entre otras funciones.

 

2.3 Procesamiento de audio

        El procesamiento de audio implica tomar sonidos específicos o ruidos de fondo y convertir esta información en datos que los modelos de aprendizaje automático puedan estudiar y aprender. Después de convertir el audio en texto escrito, se pueden aplicar etiquetas para etiquetar los datos. Además de poder seleccionar ciertas voces, los modelos de aprendizaje automático pueden usar estos datos para detectar el sonido de voces individuales e incluso determinar la emoción del hablante.

 

3. Casos de uso de etiquetado de datos

3.1 Coches autónomos

        Confíe en la detección de objetos para detectar si hay automóviles, peatones, animales y otros objetos no vehiculares delante o alrededor de usted mientras conduce.

 

3.2 Chatbot conversacional

        Muchos chatbots están capacitados con modelos NLP para mantener conversaciones de texto en línea con los clientes. Pueden buscar palabras clave o frases específicas para comprender el problema de un cliente y resolverlo rápidamente.

 

3.3 Agricultura avanzada

        Los agricultores pueden usar modelos de aprendizaje automático para detectar molestias como plagas y malezas, mientras que los tractores autónomos entrenados en datos etiquetados pueden seleccionar productos saludables y evitar los productos dañados o podridos.

 

3.4 Organización de archivos

        NLP Models desarrolló modelos de inteligencia artificial y aprendizaje automático para clasificar archivos y documentos, eliminando la necesidad de que los trabajadores clasifiquen manualmente documentos físicos y en línea.

 

3.5 Experiencia minorista

        El reconocimiento de objetos permite pagos sin cajero, procesando los precios de los artículos a medida que los clientes escanean los artículos. La visión por computadora puede monitorear los estantes e informar cuando los artículos están agotados o cuando los productos deben ser reemplazados.

 

3.6 Medición de la satisfacción del cliente

        Después de entrenarse con grandes cantidades de datos etiquetados, los modelos de aprendizaje automático pueden realizar análisis de sentimientos en tiempo real para medir los niveles de satisfacción del cliente durante las llamadas telefónicas, buscar palabras específicas y detectar el tono de voz de un hablante para determinar su estado de ánimo .

 

3.7 Detección de enfermedades

        Los radiólogos pueden usar datos etiquetados para entrenar máquinas para que reconozcan signos de enfermedad durante resonancias magnéticas, tomografías computarizadas y radiografías. Según los escaneos y su conocimiento preprogramado, el modelo de aprendizaje automático puede predecir con precisión si un paciente contiene signos de enfermedad.

 

3.8 Asistentes virtuales

Los asistentes virtuales         como Alexa de Amazon y Siri de Apple también se basan en datos etiquetados en forma de conversación humana, que se introducen en sus algoritmos. Estos asistentes pueden aprender de estos datos, no solo para comprender solicitudes y declaraciones, sino también cómo aplicar el tono de voz y la inflexión de voz correctos al proporcionar respuestas habladas.

 

4. Método de etiquetado de datos

        Debido a que el etiquetado de datos es fundamental para desarrollar buenos modelos de aprendizaje automático, las empresas y los desarrolladores le otorgan un gran valor. Sin embargo, el etiquetado de datos puede llevar mucho tiempo, por lo que algunas empresas pueden utilizar herramientas o servicios para subcontratar o automatizar el proceso.

        Podemos etiquetar datos usando varios métodos; la decisión entre estos métodos depende del tamaño de los datos, el alcance del proyecto y el tiempo requerido para completar el proyecto. Una forma de clasificar los diferentes métodos de etiquetado es si un humano o una computadora hace el etiquetado. Si los humanos están etiquetando, puede tomar una de tres formas.

 

4.1 Etiquetas internas

        Este enfoque se utiliza en grandes empresas con muchos científicos de datos expertos que pueden trabajar en el etiquetado de datos. El etiquetado interno es más seguro y preciso que la subcontratación porque se realiza internamente sin enviar datos a contratistas o proveedores externos. Este enfoque protege sus datos de la divulgación o el uso indebido si el agente subcontratado no es confiable.

 

4.2 Subcontratación

        Para proyectos grandes y avanzados que requieren más recursos de los que le sobran a su empresa, esta opción puede ser el camino a seguir. Dicho esto, requiere administrar flujos de trabajo independientes, que pueden ser costosos y lentos, ya que las empresas contratan diferentes equipos para trabajar en paralelo para cumplir con los plazos. Para mantener el flujo de trabajo y la calidad, todos los equipos deben usar un enfoque similar al entregar resultados. De lo contrario, se requiere más esfuerzo para obtener los resultados en el mismo formato.

 

4.3 Colaboración colectiva

        En este enfoque, las empresas o los desarrolladores utilizan servicios para etiquetar rápidamente los datos a bajo costo. Una de las plataformas de crowdsourcing más famosas es reCAPTCHA, que básicamente genera CAPTCHA y pide a los usuarios que etiqueten los datos. Luego, el programa compara los resultados de diferentes usuarios y genera datos etiquetados.

        Sin embargo, si queremos automatizar el etiquetado y usar una computadora para hacerlo, podemos usar uno de dos métodos.

 

4.4 Etiquetas sintéticas 

        En este enfoque, usamos datos sin procesar para generar datos sintéticos para mejorar la calidad del proceso de etiquetado. Si bien este enfoque genera mejores resultados que el marcado programático, requiere mucha potencia informática porque necesita más funciones para generar más datos. Este método es una buena opción si la empresa tiene acceso a una supercomputadora o una computadora que pueda procesar y generar grandes cantidades de datos en un tiempo razonable.

 

4.5 Etiquetas programáticas

        Para ahorrar potencia informática, este método utiliza un script para realizar el proceso de etiquetado en lugar de generar más datos. Sin embargo, el etiquetado programático suele requerir alguna anotación humana para garantizar la calidad de las etiquetas.

        Más del experto en aprendizaje automático integrado Regresión polinomial: una introducción

 

5. Ventajas del etiquetado de datos 

        El etiquetado de datos permite a los usuarios, equipos y empresas comprender mejor los datos y sus usos. Principalmente, el etiquetado de datos proporciona una forma de proporcionar predicciones más precisas y mejorar la usabilidad de los datos.

 

5.1 Predicciones más precisas

        El etiquetado de datos preciso garantiza una mejor garantía de calidad en los algoritmos de aprendizaje automático que el uso de datos sin etiquetar. Esto significa que su modelo se entrenará con datos de mayor calidad y producirá el resultado esperado. Los datos correctamente etiquetados proporcionan la verdad básica (es decir, cómo las etiquetas reflejan la escena real) para probar e iterar modelos posteriores.

 

5.2 Mejor disponibilidad de datos

        El etiquetado de datos también puede mejorar la usabilidad de las variables de datos en el modelo. Por ejemplo, una variable categórica se puede reclasificar como una variable binaria para facilitar el uso del modelo. La agregación de datos puede optimizar el modelo al reducir el número de variables del modelo o permitir la inclusión de variables de control. Ya sea que esté utilizando datos para crear  modelos de visión por computadora o NLP , el uso de datos de alta calidad debe ser su máxima prioridad.

 

6. Desventajas del etiquetado de datos 

        El etiquetado de datos es costoso, requiere mucho tiempo y es propenso a errores humanos.

 

6.1 Costoso y lento

        Si bien el etiquetado de datos es crucial para los modelos de aprendizaje automático, puede ser costoso desde la perspectiva de los recursos y el tiempo. Supongamos que una empresa adopta un enfoque más automatizado. En este caso, el equipo de ingeniería aún necesita configurar la canalización de datos antes del procesamiento de datos . El etiquetado manual casi siempre es costoso y requiere mucho tiempo.

 

6.2 Propenso al error humano

        Estos métodos de etiquetado también son susceptibles a errores humanos (por ejemplo, errores de codificación, errores de entrada manual ), que pueden reducir la calidad de los datos. Incluso pequeños errores pueden conducir a un procesamiento y modelado de datos inexactos. Los controles de control de calidad son fundamentales para mantener la calidad de los datos.

 

7. Mejores prácticas para el etiquetado de datos 

        Independientemente del método de etiquetado que elija para su proyecto de etiquetado de datos, existe un conjunto de mejores prácticas que pueden mejorar la precisión y la eficiencia de su proceso de etiquetado de datos. Por ejemplo, construimos modelos de aprendizaje automático utilizando grandes cantidades de datos de entrenamiento de alta calidad, lo cual es costoso y requiere mucho tiempo. Para desarrollar mejores datos de entrenamiento, podemos usar uno o más de los siguientes métodos:

  • El consenso del etiquetador ayuda a contrarrestar los errores individuales del etiquetador y los sesgos inconscientes . Los errores pueden incluir errores de etiquetado o duplicación de datos de etiquetado. Además, uno de los desafíos del aprendizaje automático es cuando los datos no representan completamente todas las etiquetas potenciales posibles, lo que genera un sesgo en los datos de entrenamiento en sí.
  • Las auditorías de etiquetas mantienen las etiquetas actualizadas y garantizan su precisión. Por lo general, al crear una base de datos de aprendizaje automático, se actualiza regularmente con nuevos datos que deben etiquetarse antes de que podamos almacenarlos y usarlos. La auditoría de datos garantiza que los datos nuevos se etiqueten correctamente y que los datos antiguos se vuelvan a etiquetar para que sean coherentes con estas nuevas etiquetas.
  • El aprendizaje activo utiliza otro enfoque de aprendizaje automático para decidir qué pequeñas cantidades de datos deben ser etiquetadas o inspeccionadas por etiquetadores humanos. En el aprendizaje activo, un etiquetador humano primero etiqueta una pequeña cantidad de datos y luego usa estas etiquetas para entrenar un modelo sobre cómo etiquetar datos futuros.

 

8. Ejemplos de herramientas de etiquetado de datos

        Puede usar muchas herramientas y paquetes en línea para etiquetar datos usando cualquiera de los métodos que mencionamos anteriormente.

  1. LabelMe es una herramienta en línea de código abierto que ayuda a los usuarios a crear bases de datos de imágenes para aplicaciones e investigación de visión artificial.
  2. Sloth  es una herramienta gratuita para etiquetar archivos de imagen y video. Uno de sus casos de uso más conocidos es el reconocimiento facial.
  3. Bella es una herramienta para etiquetar datos textuales.
  4. Tagtog  es una startup que proporciona una herramienta web del mismo nombre para la clasificación automática de texto.
  5. Praat es un software gratuito para etiquetar archivos de audio.

Supongo que te gusta

Origin blog.csdn.net/gongdiwudu/article/details/131798431
Recomendado
Clasificación