El entrenamiento de datos también es compartida con otros? La compañía "contrato" una gran cantidad de anotación de datos de entrenamiento, el original está haciendo ...... ...

 Autor | Lionbridge AI

Traductor | Él Zebian | Xu Veyron

Foto de la portada | CSDN│ descargar el visual de China

Producido |   AI campamento de base tecnológica (ID: rgznai100)

En el campo de aprendizaje de máquinas, la formación de preparación de datos es una de las tareas más importantes y requiere mucho tiempo. De hecho, muchos científicos afirmaron que los datos de una gran parte de los datos científicos pre-procesamiento, y algunos estudios han demostrado que la calidad de los datos de entrenamiento es más importante que el tipo de algoritmo que utiliza.

De hecho, cada vez más empresas entrar en el mercado de la inteligencia artificial, para ayudar a satisfacer la demanda de formación de datos.

 ¿Cómo se obtiene una máquina de aprendizaje de datos de entrenamiento?

El principal método para obtener los datos de entrenamiento son los siguientes tres maneras:

  • Abrir conjunto de datos de origen : por Kaggle, los conjuntos de datos de búsqueda de Google o conjuntos de datos agregador de sitios tales como búsqueda en línea.

  • Construir su propio conjunto de datos : Colección / crear datos y notas de maquillaje en su interior.

  • La externalización de recolección de datos y servicios de anotación : capacitación de los proveedores de servicios de datos.

Para proyectos individuales o de trabajo de la escuela, a veces conjunto de datos abierto puede proporcionar una cantidad suficiente de datos que necesita para llevar a cabo. Sin embargo, cuando la construcción de soluciones de inteligencia artificial y de formación para comerciales, datos de código abierto conjuntos generalmente no están disponibles para su caso de uso, no se puede utilizar con fines de lucro comercial.

Además, cuando se tiene miles de piezas de datos y sólo un pequeño número de empleados, datos de entrenamiento de adquisición y anotación internos son a menudo ineficaces. Esto nos da una tercera opción: la externalización de los servicios de datos de entrenamiento .

 

servicios de datos de formación de aprendizaje automático

 

 Lionbridge aprendizaje de los servicios de datos de entrenamiento a través de una variedad de máquinas a los clientes ayudar a mejorar sus modelos.

Actualmente, hay una empresa relacionada: Lionbridge para hacer este tipo de trabajo. Cuando llegamos a conocer, descubrimos algunos de los servicios básicos son los siguientes: 

  • La recolección de datos : voz / palabras de datos, los datos escritos a mano, frases de formación bot.

  • Imagen y vídeo anotación : caja, polígono, círculo, línea recta, el punto de teclas limitativo.

  • Notas de texto : emocional, física, enlaces físicos, clasificación.

  • Notas de audio : actas literales Transcripción,, clasificación de audio inteligente.

  • Clasificación de contenido : evaluación de la publicidad, la evaluación de la búsqueda, evaluación de datos de localización.

A partir de la traducción a los datos de entrenamiento

Lionbridge utilizar sus datos científicos mundiales, lingüistas computacionales, traductores profesionales y comentaristas del conocimiento, el aprendizaje y datos de entrenamiento para crear una máquina con una variedad de casos.

¿Por qué la traducción para las anotaciones de datos?

Por ejemplo Lionbridge, es consciente de su comunidad global es una anotación de datos fuerza de trabajo ideal.      

Especialmente para el procesamiento del lenguaje natural (NLP), un lingüista profesional es la extracción de entidades, consultas de búsqueda de clasificación y otros comentaristas proyecto ideal anotación basado en el lenguaje. Después de pruebas y entrenamiento a fondo, estos mismos trabajadores puedan realizar fácilmente una variedad de tareas Anotación de imagen para poner en práctica la visión por ordenador.

 

calidad de la traducción igual a la calidad de los datos de entrenamiento que?

        

No necesariamente la misma calidad. Sin embargo, el proceso de control de calidad de la traducción es muy similar a los datos de entrenamiento de inteligencia artificial protocolo de inspección de calidad.

Por ejemplo, uno de los proyectos proceso de localización de inspección de calidad es a revisión editorial. Durante la traducción, por lo general necesitan uno o más editores a los traductores opinión de salida. Del mismo modo, en muchos de nuestro proyecto de inteligencia artificial, tenemos varias notas contribuyentes a comprobar si los mismos datos es consistente. 

En muchos casos, la gestión de calidad significa la gestión de los contribuyentes . Para asegurar la precisión, los datos deben pasar por muchos procesos.

  • Gestión de la salida       


Las comunidades necesitan tener una gran cantidad de protocolos asegura que cada colaborador puede hacer todo. Como la comprobación de acuerdo entre los comentaristas, para asegurar que cada comentario es correcto. Este proceso también puede ayudar a verificar que los datos en sí es clara y la tarea es simple. Para algunos proyectos, un máximo de cinco contribuyentes a la misma anotación de datos. También puede implementar el protocolo de vigilancia interno, para asegurar que cada contribuyente a su trabajo constante.

Un buen ejemplo de aprendizaje automático de control de calidad de datos de entrenamiento, son su / proceso de recolección de datos de voz palabras:

  • En primer lugar, tenemos que garantizar que cada colaborador ingenieros de sonido dicen la frase correctamente, se aseguran de que los contribuyentes no han perdido ninguna palabra, y hablan en un tono natural (contraste con la lectura monótona).

  • A continuación, se enviará un archivo de audio a hablantes nativos de cada idioma, en función de su secuencia de comandos para comprobar el clip de sonido.

  • Por último, envían archivos de audio a controles de calidad para asegurar que no hay ningún ruido, y otros estándares requeridos por los clientes dentro de un cierto umbral.

La única parte de las medidas de control de calidad que han implementado en las miradas continúa perfeccionado.

 

calidad de los datos es subjetiva

Después de todo, la definición de la calidad de los datos depende del proyecto. " Cuando se trata de la calidad de los datos de entrenamiento, no existe una definición objetiva. Depende de lo que el usuario quiere tratar de hacer. " Dijo Cedric Wagrez Lionbridge director del Servicio de AI Japón. "El objetivo último de la calidad de los usuarios y los diversos factores, como la del usuario casos de uso personalizados KPI, precisión y."

datos de entrenamiento de alta calidad se basa en el aprendizaje de máquina puede ayudar a los usuarios a lograr los objetivos recogen datos de anotar y de calibración.

Antes de comenzar la calidad de la gestión, hay que entender primero lo que desea para los usuarios Sí.

  • proyectos piloto

Antes del inicio del proyecto proporcionará consulta gratuita para explicar la mejor manera de recoger datos o comentarios.

A continuación, pruebas y proyectos piloto a las expectativas de los clientes se encuentran correr. Suponga que tiene datos para ser anotados 10.000. Para asegurarse de que todos estén en la misma página, van a obtener los primeros 100 de datos, configurar el proyecto en el sistema, y ​​dejar que las etiquetas de datos de la comunidad Agregar. Si el resultado final se puede imaginar exactamente lo mismo, se continuará procesando los datos restantes. Si necesita un cambio, será recalibrado de acuerdo a la retroalimentación.

Es importante destacar que la calidad de los datos no se trata sólo de imágenes claras y caja de contorno apretado. Seleccione la etiqueta de datos que hay que considerar al personal, proporcionando datos y directrices para la recolección de datos ambientales.

 recogida y herramientas de anotación de datos de texto, audio, imágenes y vídeo

       

Los empleados tienen que etiquetar sus datos, pero necesitan una plataforma para su etiqueta? Hoy en día, este tipo de requisito también se cumple, tiene los proveedores de servicios publicar plataforma de anotación de datos para productos de consumo.

línea de AI se espera que la industria de aumentar a $ 1.5 billones de dólares durante la próxima década para la economía mundial. Con el continuo crecimiento del mercado, la demanda de datos de entrenamiento seguirá creciendo. Por lo tanto, podemos ver más similares empresas de servicios para entrar en la industria de datos de entrenamiento de aprendizaje de máquinas.

Todo está en el desarrollo, la industria será cada vez más rica y vale la pena la espera!

original:

https://hackernoon.com/get-machine-learning-training-data-using-the-lionbridge-method-a-how-to-guide-ay4f32xi

【final】

planes de fuerza

"Plan de Trabajo [el segundo trimestre] - la capacidad de aprendizaje Challenge" comenzó! A partir de ahora hasta el 21 de marzo debe fluir para apoyar el autor original! Exclusiva [más] medalla esperando a que reto

lectura recomendada

    Su punto de cada una "mirada", en serio como el AI

Liberadas 1354 artículos originales · ganado elogios 10000 + · vistas 6,25 millones +

Supongo que te gusta

Origin blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/104831794
Recomendado
Clasificación