Um método prático para Python manipular arquivos HDFS
O Apache Hadoop é um sistema de computação distribuído de software livre que fornece uma maneira eficiente de armazenar e processar conjuntos de dados em larga escala. Um dos principais componentes do Hadoop é o Hadoop Distributed File System (HDFS), que fornece armazenamento escalável e acesso eficiente aos dados.
Em Python, podemos usar a biblioteca hdfs para conectar e operar o HDFS. Neste artigo, apresentaremos uma solução prática de como ler e gravar arquivos HDFS usando Python.
Instalar e configurar a biblioteca hdfs
Primeiro, precisamos instalar a biblioteca hdfs. Use o seguinte comando para instalar:
pip install hdfs
Em seguida, precisamos configurar as informações de conexão hdfs. Em Python, podemos nos conectar ao HDFS criando um objeto cliente hdfs. Antes disso, precisamos verificar se a porta de conexão do HDFS está correta. Por padrão, a porta do HDFS é 8020.
from hdfs import InsecureClient
client = InsecureClient('http://localhost:8020')
Criar um diretório
É muito fácil criar um diretório no HDFS, basta chamar o método mkdirs() do FileSystem.