¿Cómo construir conjuntos de datos?

La construcción de la tabla de datos, en esencia, es el de reducir la duplicación de datos, mejorar el intercambio de datos, capacidades de buenos datos de conexión, el correspondiente es OneData , OneService y OneEntity tres metodología. OneData requiere número de contenedores que todos los datos solamente se procesa una vez, correspondiente al número de nivel de diseño bin, requiere una dimensión uniforme para el nivel de datos de detalle, una medida del mismo tamaño y el procesamiento de sólo una vez, la capa de resumen de datos, el mismo indicador de talla sólo existe una copias. OneService es un servicio de consulta unificado, el original de desarrollo de datos de límites y el desarrollo de aplicaciones es relativamente vaga, lo que la lógica debe ser por los datos desarrollados, que deben ser completadas por el desarrollador de la aplicación, incluso encontramos algunos cálculos en una gran Redis dentro del clúster a completa procesamiento de cálculo masivo de datos, el costo es muy grande, y no puede ser compartida. Los servicios de datos para dibujar los límites de datos y aplicaciones informáticos servicios prestados son buenos indicadores de datos, aplicaciones a través de los servicios de datos, el acceso directo a los resultados del cálculo, lógica de cálculo para obligar al público a hundirse al nivel de datos, mejorar la capacidad de compartir datos . OneEntity principalmente para resolver el problema de las conexiones de datos, el mismo usuario, ya sea porque el usuario se registra en el mismo modelo, puede haber registros duplicados, cómo identificar los dos ID es el mismo usuario, por lo que todo el usuario sólo tiene una ID de identificación, esto es OneEntity problema a resolver.

Para tres metodología, nuestra experiencia es necesaria a través de manera sistemática, regulará el sedimento en el sistema, garantizar la eficacia de la construcción. Con el fin de apoyar la construcción de la tabla de datos, hemos desarrollado un producto entero grande de enlace de datos, Netease Mammoth 6.0 , su estructura es la siguiente:

 

vínculo completo productos Big Data Netease Mammoth 6,0 construida sobre Hadoop base, incluyendo 16 sub-producto (imagen de arriba la sección de identificación del módulo verde), los datos correspondientes a la producción, la gestión completa de enlace, en la "facilidad de uso, facilidad". el diseño de productos, hemos adoptado un diseño de productos del modelo "modular", cada producto se centran un escenario típico, de acuerdo con sus necesidades de negocio, con una serie de aplicaciones de productos selectivos para resolver problemas de negocios que enfrentan actualmente. Mientras tanto Mammoth 6.0 tiene una arquitectura de producto escalable, basado en el lado del negocio puede proporcionar las capacidades básicas del producto, expandirse a nuevos productos.

vínculo completo productos Big Data Netease Mammoth 6.0 basado en el desarrollo de grandes volúmenes de datos, tareas de operación y mantenimiento, integración de datos y otra plataforma de datos grande, un aumento de dos secciones principales, una OneData del sistema, que se basa centro de metadatos como base, ofertas de los centros de datos meta 5 uno en productos de Taiwán: el número de almacén de centro de diseño, los activos del centro de datos, la calidad de los centros de datos, sistemas e indicadores de datos del mapa.

El número de centros de diseño de almacén: de acuerdo con el campo del asunto, los procesos de negocio, enfoque de diseño jerárquico para el modelado dimensional como la base teórica de base, de acuerdo con las dimensiones, diseño métricas modelo, asegurar que el modelo, el campo tiene una convención de nomenclatura uniforme.

los activos del centro de datos: El papel principal es el de los activos de datos tipo, basado en el linaje de datos, el calor de acceso a datos, hacen los costos de tratamiento.

Centro de Calidad de Datos: principalmente, los datos después de la verificación por parte de los ricos auditoría y seguimiento de normas para garantizar que los datos por primera vez el problema fue descubierto, evitar cálculos posteriores ineficaces, analizan el alcance de los datos.

Sistema de indicadores: indicadores de gestión empresarial calibre, lógica computacional y fuentes de datos, a través de forma orientada a los procesos de solicitud de acumulación de índice, índice de desarrollo, el índice registró un proceso de colaboración completa.

Los datos del mapa: Proporciona una rápida búsqueda de metadatos, consulta el diccionario de datos, linaje de los datos, la información de las funciones de datos, el equivalente de un centro portal de metadatos.

Otra sección es OneService sistema, son los servicios de datos correspondientes. Los servicios de datos proporcionan externo API Restful , enmascarando subyacente varias fuentes de datos, indicadores procesados, exportación a Greenplum , MySQL , Redis , HBase dentro de consultas, servicios de datos se puede acceder por el usuario API Restful en acceso de bajo nivel a diversas fuentes de datos . Los servicios de datos se pueden considerar es el número de posiciones de puerta de enlace.

En los servicios de datos, es la capa de aplicación, se pueden dividir en dos categorías, una es una aplicaciones de datos genéricos, incluidos los sistemas de información, sistemas de pantalla grande, propio sistema de análisis de auto-servicio no tiene los atributos de la industria, cualquier empresa puede utilizar, y la otra uno es aplicaciones de datos basados ​​en la industria, tales como el sistema de cadena de suministro proveedor de electricidad, los medios de comunicación, el sistema de la opinión pública. En nuestra división de conjuntos de datos, versatilidad de datos de la aplicación también se incluye dentro del alcance de la estación, porque la estación es esencialmente para proporcionar capacidades comunes para los conjuntos de datos que proporcionan los datos compartidos.

Supongo que te gusta

Origin www.cnblogs.com/163yun/p/12463453.html
Recomendado
Clasificación