"Grandes Principios y aplicaciones de datos Tecnología" maderas Xiamen University lluvia abrió el segundo capítulo hdfs notas distribuidas sistema de archivos

HDFS se utiliza principalmente para el almacenamiento de archivos distribuido

HDFS objetivos:

  1. Compatible con dispositivos de hardware de bajo costo
  2. Implementos de leer un flujo de datos y escritura
  3. Soporte para grandes conjuntos de datos
  4. Es compatible con el modelo simple documento
  5. compatibilidad entre plataformas de gran alcance

HDFS propias limitaciones:

  1. No es adecuado para el acceso a datos de baja latencia y rendimiento en tiempo real no es muy alta
  2. No es eficiente almacenar grandes cantidades de archivos pequeños, estructura de índice es muy grande
  3. No es compatible con archivos de escritura y modificar multiusuario

Conceptos relacionados:

  • Bloquear -> HDFS enteros entre el concepto básico de 64 MB por defecto también se puede diseñar una más grande, pero no el más grande, mejor
  • Apoyar el almacenamiento de archivos a gran escala, cortado en piezas diferentes
  • Simplificar el diseño del sistema, para facilitar la gestión de los metadatos

Metadatos: ¿Cuál es el archivo, el archivo se divide en una serie de bloques, cada bloque y cómo se asignan los archivos; cada bloque se almacena en el servidor anterior.

Para copias de seguridad de datos, un bloque de memoria redundante es hasta un dispositivo diferente

HDFS dos componentes principales:

1, NameNode -> racimos HDFS en todo el ama de llaves, el directorio de datos equivalente

  NameNode estructura de núcleo:

    FsImage, guardar el árbol del sistema de archivos

  •       Mantenimiento: Copiar el nivel de archivo
  •       Bloquear tamaño de bloque de archivos y la composición
  •       Modificación y los tiempos de acceso
  •       acceso

    EditLog: registrar datos tales como crear, eliminar o cambiar el nombre

Cada comando shell para iniciar, FsImage y EditLog se combinaron para formar los metadatos, y después de la formación de un nuevo FsImage vaciar EditLog, pero EditLog con el aumento de las operaciones, seguirá aumentando, esta vez se necesita un NameNode secundaria de tratar.

NameNode secundaria a resolver el problema:

  • NameNode hacer copia de seguridad en frío
  • procesamiento EditLog

Y comunicarse regularmente con el nombre de nodo, el nombre del nodo de dejar de usar el archivo EditLog, arrastrar a la propia, después de que el nombre del nodo genera un nuevo Edit.new re-leer y escribir. Entonces SecondaryNameNode la FsImage y EditLog copian a nivel local, se fusionaron en una nueva FsImage
, después de entonces enviado al nombre del nodo, por lo que tanto lograr un respaldo frío, sino también resolver los problemas crecientes Editlog.

2, DataNode -> datos real se almacena, guardado en el disco, a la Linux sistema de archivos de almacenamiento local


HDFS espacio de nombres:


Directorio / archivo / bloque

 

 

limitaciones HDFS:

  • limitación de espacio de nombres, un nombre de nodo se almacena en la memoria, por lo que el número de objeto receptor tamaño el espacio es limitado.
  • cuello de botella de rendimiento: un rendimiento global de archivos distribuido, limitado por el rendimiento de un único nombre de nodo
  • Aislar el problema: Debido a que sólo hay un nombre de nodo de clúster, sólo un espacio de nombres, y por lo tanto no puede ser aislado para diferentes aplicaciones
  • la disponibilidad del clúster: Una vez que el nodo falla nombre único, que hará que todo el clúster inutilizable.

El segundo es un nombre de nodo de reserva fría, no la copia de seguridad en caliente, copia de seguridad en caliente se llama después de que ocurra una falla, la segunda van inmediatamente a la parte superior se puede utilizar directamente, pero después de la primera copia de seguridad en frío es defectuoso y debe ser detenido por un período de tiempo, poco a poco recuperación, después de la provisión de servicios externos.

Versión HDFS1.0 hay un único punto de fallo problema, a HDFS2.0 proporcionará una copia de seguridad en caliente, la creación de dos nodos de nombre.

 

HDFS principio de almacenamiento de {Guardar problemas de datos redundantes, las cuestiones de política de retención de datos, problemas de recuperación de datos}

  1. los problemas de almacenamiento de datos redundantes: porque el subyacente continuará a fallar, los datos redundantes almacenados factor por defecto es 3, los bloques de almacenamiento de datos por defecto 3 partes, puede ser personalizado. (Mayor velocidad de transferencia de datos, es fácil de comprobar errores de datos, garantizar la fiabilidad de datos)
  2. Datos cuestión política de retención: si se inicia dentro de la agrupación, el primer nodo en los datos de origen. Si no fuera en el clúster, a continuación, elegir un disco no está lleno, la CPU nodo menos ocupado. Una segunda copia en un nodo diferente de la trama, el tercer nodo en el mismo bastidor que el otro.
  3. Lectura de datos: llamando estante cálculo API ID pertenece, seleccionar la más reciente. No se encontró una copia del azar seleccionado para leer los datos.
  4. Los datos problema de recuperación: el nombre del nodo que ha fallado (nombre segundo nodo de copia de seguridad y recuperación), error de datos nodo (nodo de acuerdo con datos envía información de latido, si no está disponible, y la bandera está abajo, y luego copiar a otras máquinas), sí los datos de error (para verificar si los datos del problema comprobando el código de nuevo copias redundantes de copia).
  5. HDFS los comandos más utilizados:

Supongo que te gusta

Origin www.cnblogs.com/zxgCoding/p/12638189.html
Recomendado
Clasificación