Eine praktische Methode für Python zum Bearbeiten von HDFS-Dateien
Apache Hadoop ist ein verteiltes Open-Source-Computersystem, das eine effiziente Möglichkeit zum Speichern und Verarbeiten großer Datensätze bietet. Eine der Kernkomponenten von Hadoop ist das Hadoop Distributed File System (HDFS), das skalierbaren Speicher und effizienten Datenzugriff bietet.
In Python können wir die HDFS-Bibliothek verwenden, um HDFS zu verbinden und zu betreiben. In diesem Artikel stellen wir eine praktische Lösung zum Lesen und Schreiben von HDFS-Dateien mit Python vor.
Installieren und konfigurieren Sie die HDFS-Bibliothek
Zuerst müssen wir die HDFS-Bibliothek installieren. Verwenden Sie zur Installation den folgenden Befehl:
pip install hdfs
Als nächstes müssen wir die HDFS-Verbindungsinformationen konfigurieren. In Python können wir eine Verbindung zu HDFS herstellen, indem wir ein HDFS-Clientobjekt erstellen. Zuvor müssen wir prüfen, ob der HDFS-Verbindungsport korrekt ist. Standardmäßig ist der Port von HDFS 8020.
from hdfs import InsecureClient
client = InsecureClient('http://localhost:8020')
Erstellen Sie ein Verzeichnis
Es ist sehr einfach, ein Verzeichnis auf HDFS zu erstellen. Wir müssen lediglich die mkdirs()-Methode von FileSystem aufrufen.