Ven y escribe cuando tenga tiempo

1. Proyecto

2. Proceso de construcción de Hadoop

Apague el firewall de la máquina virtual
Instalar jdk
Modificar host
Instale ssh y configure el inicio de sesión sin contraseña
Modificar el archivo de hosts
Hacer sincronización de tiempo
Sube el paquete hadoop y descomprímelo
Configurar variables de entorno
配置 core-site.xml, hdfs-stite.xml, yarn-site.xml, mapred-site.xml, hadoop-env.sh, esclavos (trabajadores)
formato

3.Señor proceso

1. Cuando se inicia un programa mr, el primero en iniciar es MRAppMaster. Después de que se inicia MRAppMaster, de acuerdo con la información de descripción de este trabajo, calcule el número de instancias de maptask necesarias y luego aplique al clúster para iniciar el número correspondiente de procesos de maptask.

2. Una vez que se inicia el proceso de maptask, el procesamiento de datos se realiza de acuerdo con el rango de segmento de datos dado. El flujo principal es:

2.1 Utilice el formato de entrada especificado por el cliente para obtener el RecordReader para leer los datos y formar un par KV de entrada

2.2 Pase los pares de KV de entrada al método map () definido por el cliente, realice operaciones lógicas y recopile los pares de KV generados por el método map () en la caché

2.3 Después de ordenar los pares de KV en la caché de acuerdo con la partición K, continúan desbordando y escribiendo en el archivo de disco

3. Una vez que MRAppMaster supervisa que se completan todas las tareas del proceso de maptask, iniciará el número correspondiente de procesos de reducción de tareas de acuerdo con los parámetros especificados por el cliente e informará al proceso de reducción de tareas del rango de datos (partición de datos) que se procesará.

4. Después de que se inicia el proceso Reducetask, de acuerdo con la ubicación de los datos a procesar notificados por MRAppMaster, se obtienen varios archivos de resultados de salida de maptask de la máquina donde se ejecuta la maptask, y se vuelven a fusionar y ordenar localmente, y luego el KV de la misma clave es uno. Agrupe, llame al método reduce () definido por el cliente para realizar operaciones lógicas y recopile el KV de resultado de la salida de la operación, y luego llame al formato de salida especificado por el cliente para enviar los datos del resultado al almacenamiento externo.

4. Modelado de almacenamiento de datos

Tres modelos principales

5. Tres paradigmas

Primera forma normal (1NF), Segunda forma normal (2NF), Tercera forma normal (3NF), Forma normal de cordón de baño (BCNF), Cuarta forma normal (4NF) y Quinta forma normal (5NF, también conocida como Forma normal perfecta). El paradigma que cumple con los requisitos mínimos es la primera forma normal (1NF). Sobre la base de la primera forma normal, la que además satisface más especificaciones se denomina segunda forma normal (2NF), y el resto se puede deducir por analogía. En términos generales, la base de datos solo necesita satisfacer la tercera forma normal (3NF). De modo que aquí solo se registra el conocimiento relacionado con los tres paradigmas.

1. 1NF: Los campos son indivisibles. Cada campo está en el nivel atómico. En la sección anterior, vio que el primer campo es ID. Significa que ID no se puede dividir en dos campos. No puedo decir que quiera dividir el ID, el nombre, Los números de clase están todos agrupados en un campo, esto es inapropiado y tendrá un gran impacto en futuras aplicaciones;

2. 2NF: hay una clave principal y los campos de clave no principal dependen de la clave principal. El campo de ID es la clave principal. Puede indicar que este dato es único. Algunos lectores tienen buena memoria. "Único" significa único y no permite duplicados. De hecho, es A menudo, modifique un campo para garantizar la unicidad del campo y luego establezca el campo como clave principal;

3. 3NF: Los campos clave no primarios no pueden depender entre sí. ¿Cómo lo entiende? Por ejemplo, en la tabla de estudiantes, el número de clase se ve afectado por el número de personal. Si inserta el profesor de la clase, el profesor de matemáticas y otra información en esta tabla, ¿cree que es apropiado? Definitivamente no es apropiado, porque hay varios estudiantes, lo que resultará en múltiples clases. Entonces habrá múltiples piezas de datos para el director y el profesor de matemáticas de cada clase, y nuestro efecto ideal debería ser que la información de una clase corresponda a un director y matemáticas Maestro, es más fácil de entender para nosotros. Esto forma la tabla de clases. Luego, qué campo se usa para asociar la tabla de estudiantes con la tabla de clases. Debe ser a través de "classNo". Este campo también se llama la clave externa de las dos tablas. Hablaré sobre las restricciones más adelante. En ese momento, Lao Han se centrará en esto, los lectores y amigos primero tienen una comprensión general;

6. Data Mart y Data Warehouse

6.1. Concepto de data warehouse y data mart

Almacén de datos: Es una recopilación de datos integrada y orientada al tema diseñada para respaldar la función del DSS (Sistema de soporte de decisiones) .En el almacén de datos, cada unidad de datos está relacionada con un tiempo específico. El almacén de datos incluye datos de nivel atómico y datos ligeramente resumidos. Un almacén de datos es una colección de datos orientados a temas, integrados, no renovables (estabilidad) y que cambian en el tiempo (diferentes momentos) para respaldar el proceso de toma de decisiones en la gestión empresarial.
El almacén de datos no puede entenderse simplemente como un conjunto de software. El almacén de datos es el proceso de reconstrucción del flujo de datos y el flujo de información de la empresa. En este proceso, el entorno de apoyo a las decisiones de la empresa se construye para distinguir el entorno operativo construido por el sistema empresarial original. El valor de un almacén de datos no es la cantidad de datos que almacena en el almacén, pero la clave radica en la calidad de la información y los resultados del análisis que se pueden obtener del almacén.
Data mart: es un pequeño almacén de datos a nivel de departamento o grupo de trabajo. Hay dos tipos de data marts: independientes y dependientes. La despensa de datos independiente obtiene datos directamente del entorno operativo. La despensa de datos dependiente obtiene datos del almacén de datos empresarial. Desde una perspectiva a largo plazo, los data marts dependientes son más estables en arquitectura que los data marts independientes.
La existencia de mercados de datos independientes puede dar a las personas una ilusión. Parece que los mercados de datos se pueden construir de forma independiente primero. Cuando el mercado de datos alcanza una cierta escala, se puede convertir directamente en un almacén de datos. Sin embargo, esto es incorrecto. Múltiples independientes La acumulación de almacenes de datos no puede formar un almacén de datos de nivel empresarial, que está determinado por las características del almacén de datos y el almacén de datos en sí. Si se separa del almacén de datos centralizado y establece varios mercados de datos de forma independiente, la empresa solo agregará algunas islas de información y aún no podrá analizar los datos en la vista de toda la empresa. Varios departamentos o grupos de trabajo utilizan el mercado de datos. Habrá inconsistencias entre ciudades. Por supuesto, el mercado de datos independiente es un hecho, un entorno analítico establecido para satisfacer las necesidades de usuarios específicos, sin embargo, desde un punto de vista a largo plazo, es una medida conveniente e inevitablemente se verá afectado por los datos de nivel empresarial. Reemplazado por almacenes.

6.2. La diferencia entre data warehouse y data mart

Inserte la descripción de la imagen aquí

Se puede ver en la figura que la estructura de datos en el almacén de datos adopta el modelo estandarizado (teoría del diseño de base de datos relacional), y la estructura de datos del mercado de datos adopta el modelo estrella (teoría del diseño de base de datos multidimensional). La granularidad de los datos en el almacén de datos es más fina que la del data mart. La figura anterior solo refleja las dos características de la estructura de datos y el contenido de los datos. Otras diferencias se muestran en la siguiente tabla, y se usa un ejemplo simple de un banco como ilustración.

Inserte la descripción de la imagen aquí
Suponga que se construye un almacén de datos a nivel de sucursal para un banco, y luego se construye una despensa de datos para el departamento comercial internacional de la sucursal. Los datos del data warehouse provienen del sistema de negocios del banco, incluyendo: ahorros, tarjetas, préstamos personales, tesorería en divisas, negocios intermedios, etc., el tema de análisis incluye clientes, canales, productos, etc. La granularidad de los datos del almacén de datos se determina de acuerdo con los requisitos de análisis, que generalmente incluyen registros históricos específicos (depósitos, retiros, transacciones de divisas, consumo de puntos de venta, registros de pagos de empresas intermediarias), y luego resumir estos registros en días / semanas / meses / trimestres / En todos los niveles, la granularidad de datos específicos está determinada por las necesidades de análisis. Además, el almacén de datos también almacena algunas lógicas comerciales, algunos indicadores calculados para el análisis. Por ejemplo, valor del cliente o lealtad del cliente. El cálculo de estos indicadores no se puede realizar a través de un único sistema empresarial y debe considerarse de forma integral en todas las empresas, lo que también es una de las ventajas del sistema de almacenamiento de datos. Suponiendo que toda la sucursal tiene 200.000 clientes, el almacén de datos contendrá datos históricos, datos resumidos y datos de índice del almacén de datos para todas las empresas de 200.000 clientes. El volumen de datos alcanzará decenas o incluso cientos de gigabytes (esto es solo una escala muy pequeña). Almacén de datos). Para atender la consulta y análisis de los usuarios en todos los departamentos del banco, el data warehouse solo puede adoptar un diseño paradigmático, de modo que no importa lo que tengan los usuarios, mientras existan datos, se pueda satisfacer. Suponga que hay 20.000 clientes en el departamento de negocios internacionales (que utilizan el tesoro de Forex). Si no crea un mercado de datos, ellos consultarán directamente la información relacionada en el almacén de datos. Por ejemplo, las transacciones de divisas de los clientes del tesoro de Forex el año pasado en varias transacciones Distribución en camino (mostrador, online, banca telefónica, etc.). La eficiencia y el rendimiento de las consultas son muy bajos. Si todos los usuarios de varios departamentos consultan directamente información relacionada en el almacén de datos, el rendimiento del almacén de datos disminuirá y no podrá satisfacer las necesidades de rendimiento de los usuarios. Nadie está dispuesto a hacer un simple La consulta espera minutos o incluso horas. Por lo tanto, es muy necesario crear un data mart a nivel de departamento, principalmente basado en consideraciones de rendimiento. El data mart del departamento de negocios internacionales incluye el historial de transacciones de divisas de 20.000 clientes, así como resúmenes, utilizando un modelo estrella (o copo de nieve, o una combinación de ambos) para facilitar la consulta y análisis de herramientas OLAP. A partir de este sencillo ejemplo, se puede ver que los datos en la despensa de datos provienen del almacén de datos, principalmente datos reorganizados y resumidos. Por lo tanto, varios mercados de datos no pueden constituir un almacén de datos a nivel empresarial.Para tomar prestada la analogía de Inmon: es imposible para nosotros apilar peces pequeños en el mar para formar una gran ballena. Esto también ilustra la diferencia esencial entre el almacén de datos y el mercado de datos.
Siguiendo el concepto de data warehouse y data mart, los métodos de diseño de data warehouse también se dividen en tres tipos: de arriba hacia abajo, de abajo hacia arriba y una mezcla de los dos. El llamado de arriba hacia abajo consiste en establecer primero un almacén de datos a nivel empresarial y luego establecer varios mercados de datos. De abajo hacia arriba, en contraste con esto, el método híbrido requiere que la estructura del almacén de datos a nivel empresarial se considere cuando se establece el mercado de datos. ,contenido.

El contenido y las sensaciones del big data warehouse