Cómo el aprendizaje automático puede ayudar a resolver problemas de conversión y gestión de big data

  Cómo el aprendizaje automático puede ayudar a resolver problemas de conversión y gestión de big data

  Aunque la tecnología de análisis de big data ha hecho un progreso sorprendente, aún necesitamos completar manualmente tareas importantes, como la conversión de datos y la gestión de datos. A medida que aumenta la cantidad de datos, aumenta la brecha entre la productividad de las tareas manuales y la automatización, lo que hace que la tendencia de la automatización basada en la inteligencia artificial y el aprendizaje automático sea cada vez más comercializable. ¿Puede el aprendizaje automático ayudar a cerrar esta brecha?

  Francamente, la conversión de datos y los problemas de gestión de datos son bastante desafiantes. Las empresas de todos los ámbitos de la vida están ansiosas por combinar el aprendizaje automático con sus bases de datos para obtener una ventaja competitiva. Sin embargo, están surgiendo problemas de datos como datos no limpios, datos no integrados, datos incomparables e incomparables, y el plan de grandes datos de la compañía está en problemas.

  Muchos científicos de datos dedicados al aprendizaje automático dedican el 90% de su tiempo a buscar, integrar, reparar y limpiar sus datos de entrada. Las personas no parecen darse cuenta de que los científicos de datos ya no son científicos de datos, sino que se han convertido en integradores de datos.

  Pero también hay buenas noticias, el aprendizaje automático en sí mismo puede ayudar al aprendizaje automático. La idea es utilizar el poder predictivo de los algoritmos para simular el procesamiento de datos humanos. Esta no es una solución 100% perfecta, pero puede ayudar a aliviar la intensidad del trabajo y permitir a los científicos de datos recurrir a un trabajo verdaderamente innovador.

  Puede comprar ML en cualquier lugar que pueda y usar ML para ayudarlo a completar la parte de conversión de ETL.

  Transforma y gestiona datos

  Aunque son similares en algunos aspectos, existen diferencias importantes entre la gestión de datos y la conversión de datos. La conversión de datos es el primer paso en el proceso de integración de datos. Su objetivo es transformar los datos heterogéneos en un modelo global universal que las organizaciones pueden formular por adelantado. Las secuencias de comandos automatizadas a menudo se utilizan para convertir dólares estadounidenses a euros o libras a kilogramos.

  Después de la fase de conversión, el analista comienza a administrar y analizar los datos. El primer paso generalmente implica ejecutar la función "combinar / combinar" para crear un grupo de registros correspondientes a la misma entidad, como agrupar nombres diferentes pero deletreados de manera similar. Se pueden usar conceptos como "editar distancia" para determinar la distancia entre dos entidades diferentes.

  Luego use más reglas para comparar varias entidades para determinar el mejor valor para un registro dado. La compañía puede declarar que el último elemento es el mejor, o usar un valor común en un conjunto de valores, para que pueda producir los mejores datos.

  Durante décadas, este proceso común de dos pasos se ha utilizado en muchos almacenes de datos y continúa utilizándose en lagos de datos modernos. Sin embargo, ETL y la gestión de datos no han logrado mantenerse al día con el volumen de datos actual y la escala de desafíos que enfrentan las empresas.

  Por ejemplo, esto requiere que se defina de antemano un modelo global, lo que evita que continúen muchos ETL, y estos esfuerzos intentan integrar más fuentes de datos. En algunos casos, los programadores no pueden mantenerse al día con la cantidad de reglas de conversión de datos que deben establecerse.

  Si tiene 10 fuentes de datos, aún puede hacerlo, pero si tiene 10,000, es poco probable.

  Obviamente, esto requiere un enfoque diferente.

  En una pequeña empresa, es posible que pueda crear un esquema de datos global por adelantado y luego obligarlo a utilizarlo en toda la organización, eliminando así el costo de los costosos proyectos de gestión de datos y ETL y reuniéndolos en el almacén de datos. Sin embargo, en organizaciones grandes, este enfoque de arriba hacia abajo fracasará inevitablemente.

  Incluso si las unidades de negocios en grandes empresas son muy similares entre sí, habrá ligeras diferencias en la forma en que registran los datos. Estas pequeñas diferencias deben considerarse antes de que puedan analizarse de manera significativa, lo cual es solo un reflejo de la naturaleza de los datos empresariales.

  Por lo tanto, la flexibilidad comercial requiere un cierto grado de independencia, lo que significa que cada unidad comercial establece su propio centro de datos.

  Por ejemplo, tome Toyota Motor Europe como ejemplo: la compañía tiene una organización de atención al cliente independiente en cada país de negocios. La compañía quiere crear un registro maestro para todas las entidades en 250 bases de datos, que contiene 30 millones de registros en 40 idiomas diferentes.

  El problema que enfrenta Toyota Motor Europe es que la escala de ETL y los proyectos de gestión de datos es enorme, y si se lleva a cabo de la manera tradicional, consumirá muchos recursos. La compañía decidió usar Tamr para ayudar a resolver los desafíos del aprendizaje automático en lugar de la conversión de datos y el uso de procesos de gestión de datos.

  El mayor problema con ETL es que el modelo global ha sido predefinido. Cómo hacer esto a gran escala es un problema. Es necesario utilizar el aprendizaje automático para el emparejamiento ascendente y la construcción ascendente de patrones objetivo. Desde una perspectiva de escala, esta es la única forma factible.

  Esto no significa que el aprendizaje automático proporcione una forma muy simple de resolver estos difíciles problemas de integración de datos. Todavía requiere una gran cantidad de datos y potencia de procesamiento. Por lo general, necesita uno de los mejores empleados para ayudar a guiar el software para obtener los resultados correctos del análisis de datos y la información sobre las decisiones.

  Desde esta perspectiva, el costo no es barato, pero este no es el más importante. Pero todavía hay una pregunta sobre cómo elegir entre diferentes proveedores. Los proveedores en diferentes países o regiones proporcionan diferentes soluciones y, para algunos factores macro, aparecerán diferentes opciones.

  Por razones de seguridad, estos problemas de datos no se pueden externalizar por completo a otras empresas, por lo que no espere utilizar el aprendizaje automático para procesar los datos por completo. El papel de las personas sigue siendo muy importante. Solo el aprendizaje humano y automático puede maximizar la integración de datos y la eficiencia de gestión.

Supongo que te gusta

Origin www.cnblogs.com/jinsexiaomifeng/p/12673942.html
Recomendado
Clasificación