Beispiel für die Verwendung eines Einführungs-Tutorials zu s3-dist-cp

s3-dist-cp ist ein in AWS EMR integriertes spezielles Tool zum Kopieren von Dateien zwischen S3 und HDFS. Es ähnelt Hadoops distcp. Es implementiert auch verteiltes Dateikopieren über Map-Reduce-Jobs (distcp ist verteilte Kopie, was Kopie bedeutet).

s3-dist-cp ist kein einfaches Tool zum Kopieren von Dateien zwischen S3 und HDFS, da es sich nicht um ein Befehlszeilentool handelt, das unabhängig ausgeführt wird, sondern auf den EMR-Cluster angewiesen ist, um MR-Jobs zu übermitteln. Tatsächlich wird es eher bei der Migration sehr großer Datensätze verwendet, z. B. bei der Migration des gesamten auf HDFS aufgebauten Datensees nach S3 oder beim Ziehen des auf S3 gespeicherten HBase-Sicherungs-Snapshots zur Wiederherstellung auf das lokale HDFS des EMR-Clusters. Diese Vorgänge erfordern das Kopieren extrem großer Datenmengen. Nur mit Hilfe von MR-Jobs für verteiltes Kopieren kann dies in kürzerer Zeit erledigt werden.

Die Kopiergeschwindigkeit von s3-dist-cp ist sehr hoch. Abgesehen davon, dass es sich um einen verteilten Job in Form von MR handelt, bestimmt seine Implementierung auch, dass er schneller ist als gewöhnliche MR-Import- und Exportjobs. Ein sehr An Ein anschauliches Beispiel ist der Befehl snapshot export von HBase, der auch ein MR-Job ist, wenn -copy-from und -copy-to jeweils S3 sind. und HDFS-Pfade, Es kopiert im Wesentlichen auch Daten zwischen S3 und HDFS, aber Tests zeigen, dass es viel langsamer ist als s3-dist-cp (1,5-mal oder länger). Derzeit liegen keine Informationen zu den Implementierungsdetails von s3-dist-cp vor. Es wird spekuliert, dass mehrere heruntergeladene Dateien auf irgendeine Weise zusammengeführt und in Form einer größeren Datei heruntergeladen werden könnten.

Das Folgende ist ein Beispiel für die Verwendung von s3-dist-cp zum Herunterladen eines HBase-Snapshots von S3 auf das lokale HDFS:

おすすめ

転載: blog.csdn.net/bluishglc/article/details/134892571