Grundlegende Einführung in HDFS

HDFS ist ein verteiltes Hadoop-Dateisystem. Es ist eine der Kernkomponenten von Hadoop und existiert als verteilter Speicherdienst auf der niedrigsten Ebene.

HDFS verwendet die Master- und Slave-Struktur zum Verwalten des Clusters. Im Allgemeinen besteht ein HDFS-Cluster nur aus einem Namenode und einer bestimmten Anzahl von Datenknoten. Namenode ist der Masterknoten des HDFS-Clusters, und Datanode ist der Slave-Knoten des HDFS-Clusters. Die beiden Rollen erfüllen ihre Aufgaben und sind miteinander koordiniert. Verteilter Dateispeicherdienst.

NameNode (Master) Nur Manager, der für die Verwaltung verantwortlich ist und jeden Knoten im Cluster verwaltet.

SecondaryNameNode-Zusatzverwaltung - nur für die zusätzliche NameNode-Verwaltung verantwortlich.

DataNode (Slave) -Arbeiter sind für ihre Arbeit verantwortlich, berichten regelmäßig an NameNode und lesen und schreiben Daten.

Der NameNode ist für die Verwaltung der Metadaten des gesamten Dateisystems und der Datenblockinformationen für jeden Pfad (jede Datei) verantwortlich.

Der DataNode ist für die Verwaltung der Dateidatenblöcke des Benutzers verantwortlich, und jeder Datenblock kann mehrere Kopien auf mehreren Datenknoten speichern.

Secondary NameNode ist ein Hilfsdämon, der zur Überwachung des HDFS-Status verwendet wird und in regelmäßigen Abständen Snapshots von HDFS-Metadaten abruft. Die Hauptfunktion besteht darin, den Namensknoten bei der Verwaltung von Metadateninformationen zu unterstützen

Der HDFS-Speicher abstrahiert Dateien zur Speicherung in Blockblöcke, behandelt alle Dateien gleich und speichert sie in Form einer einheitlichen Blockgröße. Eine Blockgröße beträgt 128 MB.

Es kann auch über hdfs-site.xml geändert werden.

    <name>dfs.block.size</name>

    <value>块大小 以字节为单位</value>//只写数值就可以

</property>

Eine Dateigröße von 100 MB, die in HDFS hochgeladen wird, belegt mehrere Blöcke. Was soll ich mit den zusätzlichen 28 MB tun?

Tatsächlich ist 128 nur eine Zahl. Wenn die Daten 128 MB überschreiten, werden sie segmentiert. Wenn sie 128 MB nicht überschreiten, ist keine Segmentierung erforderlich. So viel wie es ist, ist es auch schnell, wenn es weniger als 128 MB ist. Die Größe dieses Fastens beträgt 100 Millionen, es gibt kein Konzept für verbleibende 28 Millionen.

Die Vorteile von HDFS in Blöcken zusammengefasst:

Eine Datei kann um
20T / 128 = xxx Blöcke größer sein als jede Festplatte im Cluster . Diese Blockblöcke gehören zu einer Datei. Die
Verwendung der Blockabstraktion anstelle von Dateien kann das Speichersubsystem vereinfachen.
Blöcke eignen sich sehr gut für die Datensicherung, um Datenfehlertoleranz und Verfügbarkeit des
HDFS-Kopiermechanismus bereitzustellen

HDFS betrachtet Hardwarefehler als normal und Hardwareserver können jederzeit ausfallen. Aus Gründen der Fehlertoleranz verfügen alle Blöcke der Datei über Kopien, in der Regel standardmäßig eine

Ändern Sie die folgenden Konfigurationseigenschaften in hdfs-site.xml, um die Anzahl der Kopien der Datei zu ändern

  <name>dfs.replication</name>

  <value>3</value>

Grundlegende Einführung in HDFS

Ich denke du magst