Mecanismo de almacenamiento de copia HDFS
Los primeros datos provienen del cliente.
La segunda ubicación de almacenamiento está en el mismo bastidor que la primera copia, y no en el mismo nodo. De acuerdo con ciertas reglas (la memoria de la CPU IO es la tasa de utilización y la
capacidad restante del disco duro), encuentre un nodo para almacenar
La ubicación de almacenamiento de la tercera copia no está en el mismo estante que la primera y la segunda copia de datos, y la lógica está más cerca del estante donde las copias 1 y 2 se almacenan de
acuerdo con ciertas reglas (el uso de la memoria de la CPU IO, Y la capacidad restante del disco duro) Encuentra un nodo para almacenar
Ilustración:
Rol DataNode
1. Realizar la lectura y escritura de datos (el cliente responde)
2. Informe periódicamente a NameNode (información del bloque de datos, suma de verificación)
Si el nodo de datos no informa al NameNode durante 10 minutos, significa que el
ciclo de latido se ha perdido (tiempo de inactividad) durante 3 segundos
3. Ejecute la replicación de la tubería (copia punto por punto)
Ilustración:
Conciencia del estante
De hecho, los ingenieros necesitan recibir la creación de un script (python sh), que registra la correspondencia entre la IP del host y el conmutador.
La ubicación de configuración es core-site.xml y finalmente agregue la siguiente configuración
topology.script.file.name
/home/bigdata/apps/hadoop/etc/hadoop/RackAware.py
RPC se refiere a llamadas a procedimientos remotos. Es un método para la comunicación de datos entre múltiples componentes y múltiples módulos en el clúster.