Descripción general de Hadoop

Tabla de contenido

1. ¿Qué es Hadoop?

1.1 Hadoop en sentido estricto:

1.2 Hadoop en un sentido amplio:

 1.3. Componentes principales de Hadoop:

2. Características y ventajas de Hadoop

3. Cambios en la arquitectura Hadoop

 4. Clúster de Hadoop

 El clúster HDFS y el clúster YARN están lógicamente separados y físicamente juntos

1. ¿Qué es Hadoop?

1.1 Hadoop en sentido estricto:

狭义上Hadoop指的是Apache软件基金会的一款开源软件

​		用java语言实现,开源

​		允许用户使用简单的编程模型实现跨机器集群对海量数据进行分布式计算处理

1.2 Hadoop en un sentido amplio:

Hadoop en un sentido amplio se refiere al ecosistema de big data construido alrededor de Hadoop.


        Como sistema de almacenamiento de archivos distribuido, HDFS se encuentra en la parte inferior y central del ecosistema.

Como un sistema de gestión de recursos de clúster distribuido y de uso general y una plataforma de programación de tareas, YARN admite el funcionamiento de varios motores informáticos y garantiza el estado de Hadoop.

​ MapReduce es el motor de computación distribuida de primera generación en el ecosistema de big data. Debido a las desventajas del modelo diseñado por sí mismo, las empresas de primera línea casi ya no usan MapReduce directamente para la programación y la computación, sino la capa inferior de muchos software. todavía está usando el motor MapReduce para procesar datos 

 1.3. Componentes principales de Hadoop:

        HDFS (Sistema de almacenamiento de archivos distribuidos): resuelva el almacenamiento masivo de datos

​ YARN (marco de gestión de recursos de clúster y programación de tareas): resolver la programación de tareas de recursos

​ MapReduce (marco de trabajo de computación distribuida): solucionando la computación masiva de datos

############################################## #### 

2. Características y ventajas de Hadoop

        Fuerte expansión de la capacidad

Hadoop distribuye datos y completa tareas informáticas entre los clústeres de computadoras disponibles que
pueden escalar a miles de nodos de manera conveniente y flexible.

bajo costo

Hadp permite procesar big data mediante la implementación de máquinas ordinarias baratas para formar un clúster, por lo que el costo es muy bajo, centrándose en la capacidad general del clúster.

Alta eficiencia

A través de datos concurrentes, Hadoop puede mover dinámicamente datos entre nodos en paralelo, haciendo que la velocidad sea muy rápida.

​ Confiabilidad

Puede mantener automáticamente múltiples copias de datos y puede volver a implementar automáticamente tareas informáticas después de fallas en las tareas,
por lo que las personas confían en las capacidades de almacenamiento y procesamiento de datos bit a bit de Hadoop.

############################################## ####  

3. Cambios en la arquitectura Hadoop

        Hadoop1.0:

HDFS (almacenamiento de archivos distribuido)
MapReduce (gestión de recursos y procesamiento de datos distribuidos)

Hadoop2.0:

HDFS (almacenamiento de archivos distribuido)
MapReduce (gestión de recursos y procesamiento de datos distribuidos)
YARN (gestión de recursos de clúster, programación de tareas)

Hadoop3.0:

Aspectos generales:
Kernel simplificado, aislamiento de classpath, refactorización de scripts de shell

​ Hadoop HDFS:
​ código de borrado EC, soporte multi-nameNode

​ Hadoop MapReduce:
​ Optimización de localización de tareas, inferencia automática de parámetros de memoria

Hadoop YARN:
Timeline Service V2, configuración de cola

############################################## ####  

 4. Clúster de Hadoop

El clúster Hadoop incluye dos clústeres: clúster HDFS y clúster YARN

        Los dos clústeres están lógicamente separados, generalmente físicamente juntos.
Ambos clústeres son clústeres de arquitectura maestro-esclavo estándar.

​ Clúster HDFS:
​ Rol maestro: NameNode
​ Rol esclavo: DataNode
​ Rol maestro y rol auxiliar: SecondaryNameNode

Clúster de YARN:
Rol maestro: ResourceManager
Rol esclavo: NodeManager

 El clúster HDFS y el clúster YARN están lógicamente separados y físicamente juntos

La separación lógica significa que el clúster HDFS y el clúster YARN no dependen el uno del otro, no es necesario iniciar uno para iniciar el otro y no se afectan entre sí.
Pero a nivel físico, los procesos de dos clústeres pueden implementarse en una máquina.
MapReduce es un marco informático, un componente a nivel de código, y no existe un clúster

Supongo que te gusta

Origin blog.csdn.net/qq_48391148/article/details/129813242
Recomendado
Clasificación