Hadoop de entrada a serie maestra 4. Descripción general de HDFS y operación de shell HDFS

Directorio

Una descripción general de HDFS

Dos ventajas y desventajas de HDFS

2.1 Ventajas

2.2 Desventajas

Estructura de composición de tres HDFS

Tamaño de bloque de cuatro archivos HDFS

4.1 ¿Qué es un bloque?

4.2 Resumen

Cinco operaciones de shell HDFS

5.1 Gramática básica

5.2 Comandos comunes

Una descripción general de HDFS

HDFS (Hadoop Distributed File System) es un sistema de archivos, utilizado principalmente para resolver el problema de que un sistema operativo no puede almacenar una gran cantidad de datos, por lo que si los datos se almacenan en múltiples sistemas operativos, se necesita un sistema de archivos para administrar múltiples sistemas operativos. HDFS solo se distribuye Un tipo de sistema de información de gestión de documentos.

Escenarios aplicables de HDFS: adecuado para escenarios de escritura única y lectura, y no admite modificación de archivos, adecuado para análisis de datos, no apto para aplicaciones de disco de red

Dos ventajas y desventajas de HDFS

2.1 Ventajas

Alta tolerancia a fallas: guarde automáticamente varias copias, y cuando se pierde una copia, puede encontrar automáticamente otra máquina para hacer una copia de seguridad
Adecuado para procesar grandes datos: GB, TB y superior
Se puede construir en máquinas baratas

2.2 Desventajas

No es adecuado para el acceso a datos de baja latencia: la lengua vernácula simplemente no puede almacenar datos rápidamente
Indefenso para archivos pequeños: no apto para procesar archivos pequeños
La escritura simultánea no es compatible: el mismo archivo solo puede ser escrito por un hilo, no se permite reescribir múltiples hilos al mismo tiempo
Solo se admite la adición de datos, no se permite la modificación de datos

Estructura de composición de tres HDFS

Tamaño de bloque de cuatro archivos HDFS

4.1 ¿Qué es un bloque?

Los archivos HDFS se almacenan físicamente según el tamaño del bloque, y el tamaño del bloque se puede ver a través de hdfs-default.xml:

Lo veo! Puede configurarlo usted mismo, entonces, ¿por qué son 128m? Pocas personas piensan en este problema, permítanme explicarlo cuidadosamente: en primer lugar, debemos conocer el papel de HDFS, el almacenamiento y la lectura, luego el tamaño de este bloque debe garantizar que su velocidad de lectura alcance el derecho óptimo, suponiendo que el tiempo de direccionamiento sea 10 ms, el tiempo para encontrar este archivo es de 10 ms; cuando el tiempo de direccionamiento es del 1% del tiempo de transmisión, todo el sistema alcanza el valor óptimo, es decir, 10 / 0.01 = 1000 ms = 1 s; la mayoría de las velocidades de transmisión de disco en el mercado ahora son 100 m / s Entonces, el tamaño del bloque es igual a 1s por 100m / s es igual a 100m, 128m es un múltiplo de 1024, por lo que el tamaño del bloque se establece en 128m.

4.2 Resumen

El tamaño del bloque a menudo aparece como una pregunta de entrevista. Para resumir, el tamaño del bloque se basa en la velocidad de transferencia del disco.

Cinco operaciones de shell HDFS

5.1 Gramática básica

La operación de shell HDFS se refiere a cómo operar el sistema de archivos distribuido en nuestro clúster. Siempre que la sintaxis básica sea dos, todo puede ser:

comandos específicos de bin / hadoop fs
comandos específicos de bin / hdfs dfs

5.2 Comandos comunes

Inicie el clúster (comandos de operación que no pertenecen a hdfs): sbin / start-dfs.sh y sbin / start-yarn.sh
Ver el sistema de archivos: bin / hadoop fs -ls / o bin / hdfs dfs -ls /

La verificación es correcta según el puerto web. Algunos de estos últimos ya no serán verificados por capturas de pantalla, lo cual es demasiado problemático y afecta la eficiencia de lectura

Cree una carpeta en HDFS: bin / hadoop fs -mkdir -p / wangleijia / wanglei o bin / hdfs dfs -mkdir -p / wangleijia1 / wanglei1

Corte y pegue desde el sistema local (Linux) en HDFS: bin / hadoop fs -moveFromLocal ./wanglei.txt / user / wanglei o bin / hdfs dfs -moveFromLocal ./wanglei.txt / user / wanglei
Agregue un archivo al final del archivo existente: este archivo es el archivo local bin / hadoop fs -appendToFile wanglei.txt /user/wanglei/wanglei.txt o bin / hdfs dfs -appendToFile wanglei.txt /user/wanglei/wanglei.txt
Muestra el contenido de los archivos en HDFS: bin / hadoop fs -cat /wangleijia/wanglei.txt o bin / hdfs dfs -cat /wangleijia/wanglei.txt
Modifique el grupo del archivo, lea y escriba permisos ejecutables, propietario: bin / hadoop fs -chgrp -R newgroup / wangleijia o bin / hdfs dfs -chgrp -R newgroup / wangleijia; bin / hadoop fs -chmod 777 / wangleijia / wanglei .txt o bin / hdfs dfs -chmod 777 /wangleijia/wanglei.txt; bin / hadoop fs -chown wanglei: wanglei /wangleijia/wanglei.txt o bin / hdfs dfs -chown wanglei: wanglei /wangleijia/wanglei.tang
Copie del sistema operativo local a HDFS: bin / hadoop fs -copyFromLocal ./haidai.txt / wangleijia o bin / hdfs dfs -copyFromLocal ./haidai.txt / wangleijia
Descargar desde HDFS a local: bin / hadoop fs -copyToLocal /wangleijia/wanglei.txt ./ o bin / hdfs dfs -copyToLocal /wangleijia/wanglei.txt ./
Copia mutua en HDFS: bin / hadoop fs -cp /wangleijia/NOTICE.txt / wangleijia1 / o bin / hdfs dfs -cp /wangleijia/NOTICE.txt / wangleijia1 /
Móvil en HDFS: bin / hadoop fs -mv /wangleijia/NOTICE.txt / wangleijia1 / o bin / hdfs dfs -mv /wangleijia/NOTICE.txt / wangleijia1 /
Descargar desde HDFS a local: igual a copyToLocal; bin / hadoop fs -get /wangleijia/wanglei.txt ./ o bin / hdfs dfs -get /wangleijia/wanglei.txt ./
Carga desde local a HDFS: igual a copyFromLocal; bin / hadoop fs -put ./haidai.txt / wangleijia o bin / hdfs dfs -put ./haidai.txt / wangleijia
Eliminar: bin / hadoop fs -rm -R / wangleijia o bin / hdfs dfs -rm -R / wangleijia1
Establezca el número de copias: bin / hadoop fs -setrep 5 / wangleijia o bin / hdfs dfs -setrep 5 / wangleijia

El número de copias establecido aquí solo se registra en los metadatos del NameNode. El hecho de que haya realmente tantas copias depende del número de DataNodes. Debido a que actualmente solo hay 3 dispositivos, y como máximo 3 copias, solo cuando el número de nodos aumenta a 10, el número de copias puede llegar a 10.

Lo anterior es la operación de shell HDFS de uso común, y todavía es bien entendido por aquellos que están familiarizados con Linux. Tenga en cuenta que algunas instrucciones siguen los parámetros, como -R necesita ser capitalizado, de lo contrario será incorrecto, pero no importa, el error es obvio.

Solo hay treinta días en un mes

111 artículos originales publicados · Me gusta 60 · 70,000 + vistas

carta privada preocupaciones