Big Data_Centro de datos_Convergencia de datos Unicom

Tabla de contenido

1. Métodos y herramientas para la recopilación y agregación de datos.

1. Recopilación de comportamiento en línea

2. Recopilación de comportamiento sin conexión

3. Recopilación de datos de Internet

4. Agregación de datos internos

2. Productos de intercambio de datos

1. Gestión de fuentes de datos

2. Intercambio de datos sin conexión

3. Intercambio de datos en tiempo real

3. Selección del almacenamiento de datos.

1. En línea y fuera de línea

2. OLTP y OLAP

3. Tecnología de almacenamiento


        El primer paso en la construcción de un centro de datos a nivel empresarial es lograr la interconexión de datos en varios sistemas comerciales y dividir físicamente las islas de datos. Se logra principalmente mediante la capacidad de agregación e intercambio de datos. Ante diferentes escenarios, se seleccionan diferentes soluciones según los tipos de datos y los requisitos de almacenamiento de datos.

1. Métodos y herramientas para la recopilación y agregación de datos.

1. Recopilación de comportamiento en línea

①Punto de entierro del cliente

Punto de entierro completo : registre todos los comportamientos operativos del usuario en el dispositivo terminal. Generalmente, el propósito de todos los comportamientos de recopilación se puede lograr realizando alguna configuración inicial con el SDK integrado. También llamado punto de entierro sin rastro, sin punto de entierro, etc. Ventajas: Se pueden obtener datos completos sin actualizaciones frecuentes Desventajas: Altos costos de almacenamiento y transmisión

Puntos enterrados visuales : registra parte de las operaciones del usuario en el dispositivo terminal y, en general, graba y guarda de forma selectiva a través de la configuración del lado del servidor. Ventajas: sin liberaciones frecuentes, menor costo que los puntos completamente enterrados, más flexible; Desventajas: es posible que no se recopilen los datos deseados y se requiera reconfiguración, etc.

Punto de incrustación de código : para personalizar el contenido de cada teléfono móvil según las necesidades, es necesario actualizar el módulo terminal correspondiente. Ventajas: gran flexibilidad, diseño independiente y más optimizaciones para el almacenamiento y el ancho de banda; Desventajas: alto costo, mantenimiento difícil y ciclo de actualización largo.

Punto de enterramiento del lado del servidor

La forma común de enterramiento del lado del servidor es access_log en el servidor HTTP, que son los datos de registro de todos los servicios web. Ventajas: Reduce la complejidad del cliente y mejora la seguridad de la información; Desventajas: No se puede recopilar información que el cliente no interactúa con el servidor.

2. Recopilación de comportamiento sin conexión

Los datos fuera de línea generalmente se recopilan a través de hardware, como sondas Wifi, cámaras, sensores, etc.

3. Recopilación de datos de Internet

Este método de recopilación de datos generalmente utiliza un rastreador web, un programa o script que captura automáticamente información de Internet de acuerdo con reglas establecidas y, a menudo, se usa para pruebas automatizadas y simulación de comportamiento de sitios web. Marcos de rastreo web comunes: Apache Nutch 2, WebMagic, Scrapy, PhpCrawl, etc. La recopilación de datos de Internet debe cumplir con las especificaciones y protocolos de seguridad correspondientes, etc.

4. Agregación de datos internos

Clasificación de formas de organización de datos.

Datos estructurados : datos regulares, completos, que se pueden representar mediante tablas bidimensionales, datos en bases de datos comunes y excel.

Datos semiestructurados : datos que son regulares y completos, pero que no pueden representarse mediante tablas bidimensionales, como estructuras complejas como JSON y XML.

Datos no estructurados : Los datos son irregulares e incompletos y no se pueden representar mediante una tabla bidimensional, se requiere una lógica compleja para extraerlos, como fotografías, imágenes, audio, etc.

   ② Puntualidad de los datos y análisis de escenarios de aplicación.

Fuera de línea : se utiliza principalmente para la migración periódica de grandes lotes de datos de usuario y no requiere gran puntualidad. Generalmente, se adopta la sincronización de datos por lotes distribuidos y los datos se leen a través de conexiones. El proceso de lectura de datos puede tener métodos completos e incrementales. , escrito en el almacenamiento de destino después del procesamiento unificado.

Tiempo real : Principalmente para escenarios de aplicaciones de datos de baja latencia, generalmente implementados a través de registros incrementales o mensajes de notificación, la industria tiene canal, flink y otros métodos para lograrlo.

③ETL y ELT

ETL ( Extraer-Transformar-Cargar, extraer - transformar - almacenar) , procesamiento durante la extracción, ventajas: ahorrar almacenamiento, simplificar el procesamiento posterior Desventajas: datos incompletos o perdidos, baja eficiencia de procesamiento

ELT ( Extraer-Cargar-Transformar, extraer - almacenamiento - transformación) , una vez completada la extracción, se procesa. Ventajas: los datos están completos y el efecto del posprocesamiento distribuido, como big data, es mayor. Desventajas: El almacenamiento ocupa una gran cantidad, demasiados datos inútiles pueden causar ineficiencia.

④Herramientas comunes de agregación de datos

Canal: una herramienta de envío de datos que monitorea los cambios de registro disfrazándose de esclavo como Mysql. A menudo se utiliza como herramienta de recopilación de datos para cambios de datos de MySQL, pero no es adecuado para escenarios de distribución de datos y consumo múltiple.

Sqoop: una solución general de big data, una herramienta para la migración de datos entre datos estructurados y HDFS, basada en la implementación MapReduce de Hadoop. Ventajas: Escenarios específicos, alta eficiencia en el intercambio de datos. Desventajas: alto grado de personalización, no es fácil de operar y depende de MapReduce, la escalabilidad funcional es restringida y limitada.

DataX: el conjunto de herramientas de intercambio de datos fuera de línea de Ali, que se basa en la conexión directa de lectura y escritura en proceso.

2. Productos de intercambio de datos

Las herramientas presentadas anteriormente generalmente solo pueden satisfacer algunos escenarios o procesos únicos. Para hacer frente a escenarios complejos de intercambio de datos empresariales, necesitamos un producto de intercambio de datos completo, que incluya gestión de fuentes de datos, procesamiento de datos fuera de línea, procesamiento de datos en tiempo real, etc.

1. Gestión de fuentes de datos

La gestión de la fuente de datos consiste principalmente en gestionar el almacenamiento utilizado por los datos, que se puede utilizar para gestionar cómodamente el almacenamiento externo cuando la plataforma realiza el intercambio de datos.

Clasificación de fuentes de datos:

Base de datos relacional: como Oracle, Mysql, SQL Server, Creenplum, etc.

Almacenamiento NoSQL: como HBase, Redis, Elasticsearch, Cassandra, MongoDB, Neo4j, etc.

Red y MQ: como Kafka, HTTP, etc.

Sistema de archivos: como HDFS, FTP, OSS, CSV, TXT, EXCEL, etc.

Relacionados con big data: como HIVE, Impala, Kudu, MaxCompute, etc.

2. Intercambio de datos sin conexión

Durante el intercambio de datos fuera de línea, resuelve el problema de la migración por lotes de datos a gran escala para escenarios con bajos requisitos de puntualidad de datos y alto rendimiento.

Aspectos destacados de la tecnología de sincronización de datos fuera de línea:

① Auditoría previa

②Conversión de datos

③Sincronización de datos entre clústeres

④Sincronización completa

⑤ Sincronización incremental

3. Intercambio de datos en tiempo real

El intercambio de datos en tiempo real es el principal responsable de conectar datos como bases de datos y rastreadores de registros a almacenamientos como Kafka, Hive y Oracle en tiempo real. Sus dos servicios principales son: servicio de suscripción de datos (Client Server) y servicio de consumo de datos (Consumer Server).

Ejemplo de un diagrama de arquitectura de conmutación en tiempo real :

3. Selección del almacenamiento de datos.

Para el almacenamiento de datos, generalmente debemos considerar la escala de los datos, el método de producción de los datos y el método de aplicación de los datos, mediante una consideración integral.

1. En línea y fuera de línea

El almacenamiento en línea significa que el dispositivo de almacenamiento y los datos almacenados permanecen "en línea" en todo momento y los usuarios pueden leerlos a voluntad, cumpliendo con los requisitos de velocidad de la plataforma informática para el acceso a los datos. El almacenamiento en línea suele ser disco, matriz de discos, almacenamiento en la nube, etc.

El almacenamiento sin conexión consiste en realizar una copia de seguridad de los datos almacenados en línea para evitar posibles desastres de datos. Los datos almacenados sin conexión no se llamarán con frecuencia. Los productos típicos comunes son los discos duros, las cintas magnéticas y los discos ópticos.

2. OLTP y OLAP _

OLTP y OLAP no compiten ni se excluyen mutuamente, sino que cooperan entre sí y logran una cooperación beneficiosa para todos.

OLTP

OLAP

usuario

Orientado al operador, apoyando las operaciones diarias.

Para los tomadores de decisiones, apoyar las necesidades de gestión

Función

Operaciones diarias

orientado al análisis

diseño de base de datos

Orientado a aplicaciones, impulsado por transacciones

Orientado al tema, impulsado por el análisis

datos

actual, actualizado, detallado, bidimensional, discreto

histórico, agregado, multidimensional, integrado, unificado

acceso

Actualizable, lee/escribe docenas de registros

No actualizable, pero se actualiza periódicamente y lee millones de registros.

empleador

asuntos simples

consulta compleja

tamaño de base de datos

Nivel de 100 MB a GB

Nivel de 100 GB a TB

3. Tecnología de almacenamiento

1. Sistema distribuido

Los sistemas distribuidos comúnmente incluyen sistemas de archivos distribuidos (el sistema de almacenamiento requiere la cooperación de múltiples tecnologías, en las que el sistema de archivos proporciona soporte para las capacidades de almacenamiento de nivel más bajo) y sistemas distribuidos de valores clave (los usuarios almacenan datos semiestructurados con relaciones simples).

2. Base de datos NoSQL _

La ventaja de NoSQL es que puede admitir almacenamiento de datos a ultra gran escala. El modelo de datos flexible admite muy bien las aplicaciones web2.0 y tiene fuertes capacidades de expansión horizontal. Los ejemplos típicos incluyen: bases de datos clave-valor, bases de datos de familias de columnas, bases de datos de documentos y bases de datos de gráficos, como: HBASE, MongoDB, etc.

3. Base de datos en la nube

La base de datos en la nube es un método de infraestructura compartida basado en la tecnología de computación en la nube, que es una base de datos implementada y virtualizada en un entorno de computación en la nube.

 

Supongo que te gusta

Origin blog.csdn.net/wanghaiping1993/article/details/128192411
Recomendado
Clasificación