Um método prático para Python manipular arquivos HDFS

Um método prático para Python manipular arquivos HDFS

O Apache Hadoop é um sistema de computação distribuído de software livre que fornece uma maneira eficiente de armazenar e processar conjuntos de dados em larga escala. Um dos principais componentes do Hadoop é o Hadoop Distributed File System (HDFS), que fornece armazenamento escalável e acesso eficiente aos dados.

Em Python, podemos usar a biblioteca hdfs para conectar e operar o HDFS. Neste artigo, apresentaremos uma solução prática de como ler e gravar arquivos HDFS usando Python.

Instalar e configurar a biblioteca hdfs

Primeiro, precisamos instalar a biblioteca hdfs. Use o seguinte comando para instalar:

pip install hdfs

Em seguida, precisamos configurar as informações de conexão hdfs. Em Python, podemos nos conectar ao HDFS criando um objeto cliente hdfs. Antes disso, precisamos verificar se a porta de conexão do HDFS está correta. Por padrão, a porta do HDFS é 8020.

from hdfs import InsecureClient
client = InsecureClient('http://localhost:8020')

Criar um diretório

É muito fácil criar um diretório no HDFS, basta chamar o método mkdirs() do FileSystem.

 

Acho que você gosta

Origin blog.csdn.net/update7/article/details/131352674
Recomendado
Clasificación