plataforma de datos ideas comunes grandes del diseño de la arquitectura

En los últimos años, junto con la tecnología de aprendizaje de TI y grandes volúmenes de datos, dirección de la máquina del continuo desarrollo de algoritmos, cada vez más empresas se han dado cuenta del valor de los datos existentes, los datos como una gestión de activos valiosos, el uso de grandes volúmenes de datos y aprendizaje automático capacidad de excavación, para identificar, utilizando los activos de datos. Si la falta de datos efectivos diseño general arquitectónico o parte del déficit, conducirá la capa de negocio es difícil tomar directamente ventaja de los datos grandes volúmenes de datos grandes, grandes volúmenes de datos y de negocios tuvo una enorme brecha apareció plomo sima a ocurre negocios durante el uso de datos de gran tamaño datos agnóstico, la demanda es difícil de conseguir, difícil de compartir datos y otros temas, este artículo describe algunos de los enfoque de diseño de plataforma de datos a las empresas ayudar a reducir la dificultad y los puntos de dolor en el desarrollo de datos.

Este artículo incluye las siguientes secciones:

  1. La primera parte de este artículo para introducir un grandes componentes de la infraestructura de datos y conocimientos relacionados.

  2. La segunda parte describe el kappa y lambda arquitectura arquitectura.

  3. La tercera sección describe la arquitectura general de grandes datos bajo el kappa y lambda patrones arquitectónicos

  4. Parte IV describe el sistema de datos de la arquitectura de datos de extremo desnudo bajo las dificultades y los puntos de dolor.

  5. Sección V excelente diseño general de la arquitectura de datos de gran tamaño

  6. A partir de la quinta parte es la introducción de datos a través de una variedad de plataformas y componentes a estos grandes datos de componentes se combinan para crear una plataforma de datos de fácil uso eficiente de mejorar la eficiencia de los sistemas de negocio, desarrollo de negocios, por lo que no tiene miedo de los componentes de desarrollo de datos complejos, sin prestar atención a la aplicación subyacente, sólo se necesita utilizar SQL para completar el desarrollo de una ventanilla, los datos completos de reflujo, de manera que los datos ya no a grandes ingenieros de datos tienen habilidades es.

En primer lugar, la gran pila de tecnología de datos

conjunto de datos grande proceso implica una gran cantidad de módulos, cada módulo es más compleja, la figura a continuación se enumeran los módulos y componentes, así como sus propiedades funcionales, se realizará un seguimiento para introducir temas relacionados con el campo de datos del módulo de conocimiento, como la recopilación de datos, transmisión de datos, en tiempo real la computación , fuera de línea calculada, almacenamiento de datos de gran tamaño y otros módulos relacionados.

 

 

Dos, lambda y kappa arquitectura de la arquitectura

Ahora, básicamente, todos los grandes arquitectura de datos se basa en lambda y kappa arquitectura, diferentes empresas de estos dos patrones arquitectónicos diseñados para cumplir con la arquitectura de datos de la empresa. arquitectura lambda permite a los desarrolladores crear sistema de procesamiento de datos distribuidos a gran escala. Tiene buena flexibilidad y escalabilidad, sino que también tiene una buena tolerancia a fallos para fallos de hardware o errores humanos, con respecto a la arquitectura de lambda se puede encontrar a muchos artículos relacionados en Internet. Las direcciones plataforma Kappa dos conjuntos de datos de los sistemas de procesamiento de la arquitectura existen lambda, dando lugar a una variedad de costos, el cual está aprobado actualmente la dirección del flujo de la integración de la investigación, muchas empresas han empezado a utilizar esta arquitectura más avanzada. Quiere aprender el sistema de grandes volúmenes de datos, puede unirse a la gran tecnología de datos de aprendizaje abotonada Junyang: 522 189 307

 

arquitectura lambda

 

arquitectura kappa

 

En tercer lugar, la gran arquitectura de datos en la arquitectura de kappa y lambda arquitectura

 

En la actualidad las grandes empresas son, básicamente, utilizando el modelo kappa o lambda arquitectura arquitectura, estos dos modos de datos de gran tamaño arquitectura general puede tener un aspecto como el siguiente en las primeras etapas de desarrollo:

 

En cuarto lugar, los datos de punto final para el dolor

 

Mientras que la arquitectura anterior se verá gran variedad de componentes de datos enlazados entre sí para implementar la gestión integrada, pero la gente de desarrollo de datos de contactos se sentirá más intensa, los datos de la arquitectura de negocio desnudos tal desarrollo requiere mucha atención a la utilización del instrumento subyacente, el desarrollo real de los datos hay muchos puntos de dolor y dificultades, en particular en algunos de los siguientes aspectos.

 

  1. La falta de un IDE de desarrollo de datos para gestionar todo el desarrollo de enlace de datos, procesos de largo plazo no pueden manejarlo.

  2. No existe un sistema de modelado de datos estándar, lo que resulta en diferentes ingeniero de datos para comprender los diferentes indicadores calculados calibre equivocado.

  3. requisitos grandes de datos de alto componente de desarrollo de negocios en general, el uso de otros componentes de la tecnología directa hbase, ES y producirá una variedad de problemas.

  4. Básicamente, cada gran equipo de datos de la empresa va a ser muy compleja, que involucra muchas áreas, un problema difícil de localizar difícil encontrar a la persona que corresponde a cargo.

  5. Difícil de romper los silos de datos, a través del equipo de intercambio de datos entre departamentos es difícil, porque no saben lo que cada uno de los datos.

  6. La necesidad de mantener dos conjuntos de lotes computar los cálculos del modelo y cálculo de flujo, es difícil empezar a desarrollar, necesidad de proporcionar una corriente de uniforme lote SQL.

  7. La falta de planificación a nivel de empresa sistema de metadatos, los mismos datos en tiempo real y el cálculo en línea difícil reutilización, el cardado cada una variedad de tareas de desarrollo debe ser.

Básicamente, la mayoría de las empresas en la plataforma de gestión de datos y proporciona todos los problemas anteriores y puntos de dolor en la capacidad abierta. En una arquitectura de datos complejos, los datos adecuados para fiestas, todos los aspectos de una función no es clara o antipáticos, hará que sea más complicado para cambiar una relación compleja. ¿Quieres resolver estos puntos de dolor, es necesario pulir cuidadosamente todos los aspectos, los componentes de tecnología superior juntos sin problemas, por lo que los negocios como escribir SQL para consultar la base de datos es tan simple como el uso de datos de extremo a extremo.

Cinco excelente diseño general gran arquitectura de datos

Ofrece una variedad de plataformas y herramientas para la plataforma de datos ayuda: la recopilación de datos de fuentes de datos de plataforma, una plataforma clave para la sincronización de datos, calidad de datos y la plataforma de modelado, un sistema de metadatos, una plataforma de acceso unificado de datos, en tiempo real y fuera de línea plataforma de computación, la programación de recursos plataforma, IDE de desarrollo de ventanilla única.

 

En sexto lugar, los metadatos - la piedra angular del sistema de datos grande

Los metadatos son fuentes públicas de datos, almacenamiento de datos, aplicaciones de datos, registrados un vínculo de datos completos desde la producción hasta el consumo. Metadatos contiene cuadros estáticos, columnas, información de particiones (es decir MetaStore). dependencia entre tareas tabla de relación de mapeo dinámico; modelo define el almacén de datos, el ciclo de vida de los datos, y la información de programación ETL, entrada y salida de metadatos es la gestión de datos, el contenido básico de datos, aplicaciones de datos. Por ejemplo, construida mediante el uso de los metadatos de tareas, tablas, columnas, datos de los mapas entre el usuario; DAG dependencias de tareas, la programación de la secuencia de ejecución de tareas; las tareas de construcción, ilustración de tareas de gestión de calidad; BU gestión personal o activo, calculando el consumo de recursos Descripción y así sucesivamente.

Puede considerarse la totalidad de los flujos de datos de gran tamaño están confiando en la gestión de metadatos, no hay un conjunto completo de diseño de metadatos, no será difícil realizar un seguimiento de los datos anteriores, la autoridad es difícil de controlar, difícil de manejar los recursos, difíciles de compartir datos y así sucesivamente.

Muchas empresas están confiando colmena para administrar metadatos, pero personalmente creo que en una determinada fase de desarrollo todavía tienen que construir su propia plataforma para que coincida con los metadatos relacionados con la arquitectura.

Siete, la integración de lotes cálculo de flujo

Si el mantenimiento de dos motores de computación tales como offline chispa de computación y en tiempo real de computación Flink, a continuación, el usuario hará que una gran angustia, tanto necesidad de aprender cálculo de flujo también se requiere el conocimiento de los conocimientos de computación por lotes. Si en tiempo real con chispa o Hadoop, se puede desarrollar un lenguaje de descripción de DSL costumbre de la sintaxis para que coincida con diferentes máquinas de cómputo, los usuarios no tienen que centrarse en los detalles de implementación superiores, sólo tienen que dominar una lengua con DSL Flink sin conexión, puede completar Spark y el acceso y Flink como motor de cálculo Hadoop.

Ocho, en tiempo real y en línea plataforma ETL

Es decir ETL Extract-Transform-Load, para describir los datos desde el terminal fuente a través de extracción (extracto), la conversión (transformar), la carga (carga) para el proceso de destino. El término más comúnmente utilizado en ETL almacén de datos, pero el objeto no se limita al almacén de datos. En la plataforma ETL general en la limpieza de datos, conversión de formato de datos, integridad de los datos, la gestión de calidad de los datos, y tiene un papel muy importante. Como un importante la limpieza de datos de capa intermedia, ETL general tener al menos las siguientes diversas funciones:

  1. Soporte de múltiples fuentes de datos, tales como un sistema de mensajes, sistema de archivos, etc.

  2. Soporta múltiples operadores, filtrado, segmentación, la conversión, capacidades de consulta de fuentes de datos de salida del complemento congruentes operador

  3. Apoyar el cambio lógico dinámico, como el operador antes mencionada para presentar un servicio sin escalas se puede hacer a través de notas manera frasco dinámico.

 

 

Nueve, la plataforma de búsqueda inteligente unificado

 

La mayoría de las consultas de datos son impulsados ​​por la demanda, una demanda para el desarrollo de una o varias interfaces, interfaces de documento escrito, abierto a las llamadas partido del negocio, este modelo hay muchos problemas en el gran sistema de datos:

  1. Esta arquitectura es simple, pero la interfaz es muy granularidad gruesa, la flexibilidad no es alto, pobre escalabilidad, la tasa de reutilización. Con el aumento de las necesidades del negocio, un aumento sustancial en el número de interfaces, los altos costos de mantenimiento.

  2. Mientras tanto, la eficiencia del desarrollo no es muy alta, lo que para las grandes cantidades de datos del sistema, obviamente, causar una gran cantidad de duplicación de desarrollo, es difícil lograr la lógica y los datos de la multiplexación, reduciendo severamente lado del negocio de la experiencia aplicable.

  3. Si no hay una plataforma de búsqueda unificada directamente expuesto a hbase y otros servicios de la biblioteca, el seguimiento de la operación de gestión de derechos digitales y el mantenimiento será más difícil acceder a gran componente de datos es igualmente doloroso para la parte comercial aplicable, el más mínimo error se planteará diversos problemas .

     

Consultas para resolver el gran problema de los puntos de dolor de consulta de datos a través de una serie de inteligentes

 

Diez, el número de contenedores estándar del sistema de modelado

A medida que el negocio aumenta la complejidad y los datos de escala, confundiendo las llamadas de datos y copias de diferentes residuos de los recursos, la duplicación de datos de definición de indicadores trajo trajo el uso de la ambigüedad, los datos aumentando el umbral. testigo I del negocio real y varios Buried uso de almacén, por ejemplo, un nombre comercial con algunos campos de formulario se good_id, alguna llamada spu_id, hay muchos otros nombres, que quieren hacer uso de estos datos causará una gran angustia. Así que no hay un conjunto completo de datos de grandes sistemas de modelado, el gobierno de datos traerá grandes dificultades, en particular, en las siguientes áreas:

 

  1. Los estándares de datos son inconsistentes, incluso el mismo nombre, pero la definición de calibre han sido inconsistentes. Por ejemplo, sólo un UV tales indicadores, hay una docena de definiciones. El problema es causado por: todos los rayos UV, utilizo qué? UV son, por qué los datos no es lo mismo?

  2. Enormes costes de investigación y desarrollo, cada uno necesita un ingeniero para conocer todos los detalles del proceso de desarrollo de principio a fin, y por la misma "pozo" Todo el mundo dio un paso atrás de nuevo, lo que resulta en una pérdida de tiempo y energía para los gastos de personal de investigación y desarrollo. Este es también el objetivo de los problemas encontrados autor, los desarrolladores quieren extraer los datos reales difícil.

  3. No hay gestión especificación estándar uniforme, resultando en una pérdida de recursos tales como el doble conteo. El nivel de la tabla de datos, tamaño de partícula no está claro, por lo que el almacenamiento duplicado también es grave.

 

Por lo tanto, el desarrollo de varios de diseño mesa de almacén de datos debe adherirse a los principios del diseño, plataforma de desarrollo de la plataforma de datos diseñado para sujetar razonable, tal como el cuerpo de Alibaba OneData. En general, los desarrolladores tienen que ir a través de los datos de acuerdo con las siguientes pautas:

 

Interesados ​​pueden referirse al sistema de diseño de Alibaba OneData.

XI, una plataforma de integración clave

Simple puede ser de diversos tipos de datos en una plataforma clave de la recopilación de datos, transmisión de datos a través de Internet a Internet el ETL de datos sin fisuras. ETL través y la plataforma de metadatos abierto, estandarizado de definición de esquemas, a continuación, los datos se convierten, dividir los flujos en tiempo real y fuera de línea plataforma de computación, cualquier ulterior de los datos fuera de línea y el procesamiento en tiempo real, sólo los privilegios de tabla aplicación de metadatos a las tareas de desarrollo para completar el cálculo. de apoyo a la adquisición de datos múltiples tipos de fuentes de datos, la binlog por ejemplo, la recopilación de registros, el extremo delantero Buried, mensaje de cola de Kafka

Doce, el desarrollo de datos IDE-eficiente de extremo a herramientas

herramientas de desarrollo de datos solución eficiente una ventanilla, cálculo en tiempo real se pueden hacer a través del IDE y fuera de línea computar el desarrollo de las tareas, todos obtendrán través de estas plataformas ofrecer soluciones integrales. IDE de desarrollo de datos proporciona integración de datos, desarrollo de datos, gestión de datos, calidad de datos y servicios de datos tales como una gama completa de productos y servicios, el desarrollo de ventanilla única y la interfaz de gestión, los datos IDE operaciones de transmisión de datos, conversión e integración completos. Almacenamiento de datos de diferentes datos de entrada, y la transformación y el desarrollo, y, finalmente, envía los datos procesados ​​al otro sistema de sincronización de datos. Por IDE de desarrollo de datos de gran eficiencia, básicamente ingenieros hacen grandes volúmenes de datos se pueden enmascarar diversos puntos de dolor, la capacidad de combinar el antes mencionadas múltiples plataformas, los desarrolladores pueden hacer grandes volúmenes de datos como SQL fácil de escribir.

Acerca de las herramientas de desarrollo pueden hacer referencia a los datos DataWorks Ali nube.

Las dificultades también necesitan dirección final para poner fin a varias otras capacidades auxiliar, ya no hay descritos, los estudiantes interesados ​​pueden estudiar por su cuenta.

XIII. Otros

sistema de datos de I + D completa también incluye un centro de monitoreo de alarmas, los recursos del centro de despacho, el aislamiento de los recursos informáticos, pruebas de calidad de los datos, los datos de ventanilla sistema de procesamiento, ya no va a seguir para hablar de ello.

Ha publicado 191 artículos originales · alabanza 3 Ganador · vistas 30000 +

Supongo que te gusta

Origin blog.csdn.net/mnbvxiaoxin/article/details/104988460
Recomendado
Clasificación