1.1 HDFS sabe

Quando o tamanho do conjunto de dados exceder a capacidade de armazenamento de um único computador, é necessário partição e armazenado num número de computador separado. E, para gerenciar o armazenamento em vários computadores ao longo de um sistema de arquivos de rede chamado o sistema de arquivos distribuídos. A arquitetura do sistema através da rede, é obrigado a apresentar a complexidade da programação de rede, de modo que o sistema de arquivos distribuídos é mais complexo do que um sistema de arquivo comum, como uma falha de nó não tolera perder quaisquer dados.

1.1.1HDFS vantagens e desvantagens

Vantagens: (1) adequado para armazenar grandes arquivos: os arquivos são armazenados no Hadoop Distributed File System principalmente em GB mesmo nível TB.

(2) é executado em um servidor de PC normal, não necessita de servidor caro.

Desvantagens: (1) dados em tempo real acessar fraca: Se a aplicação requer tempo de acesso de dados em segundos ou milissegundos, não HDFS. Considere o uso de HBase.

(2) HDFS arquivo apenas um escritor, e sempre no final da escrita de arquivos de dados não pode ser modificada em qualquer lugar, ele não suporta vários escritores.

arquitetura 1.2HDFS

Um completo corridas HDFS em um número de nós que estão executando diferentes tipos de daemons, como NameNode, DataNode, SecondaryNameNode, diferentes tipos de nós colaborar juntos constituem HDFS.

(1) Bloco

HDFS também tem o conceito de um bloco, mas o HDFS bloco de dados do que a média do sistema de arquivos de dados bloco é muito maior, o padrão é 64 MB.

Benefícios blocos:

uma, o bloco de dados de criação, é a fragmentação ficheiro real, a fragmentação pode ser armazenado em qualquer nó do agrupamento, para que o ficheiro é armazenado entre as limitações da máquina de disco e até mesmo, tais como o ficheiro dados.txt é cortada em três blocos, respectivamente, 3 DataNode armazenado em nós diferentes da máquina.

B, alta tolerância a falhas: se definido dfs.relication 2, então qualquer um de um bloco de dados corrompido, o cluster irá réplica corrompido após o bloco de dados para os nós do cluster fina funciona, de modo que o número de cópias de volta nível de configuração.

(2) NameNode soma SecondayNameNode

HDFS é NameNode cérebro, ele mantém uma árvore de diretórios de todo o sistema de arquivos. As informações em dois arquivos são armazenados em um arquivo local. Um deles é o espelho namespace, um é log namespace editar espelhado.

SecondayNameNode é chamado um segundo nó para um espelho regular e merge namespace daemon namespace espelhado log editar, fundindo objetivo é atualizar a árvore de diretórios. Se você faz operação de mesclagem pela NameNode, então NameNode quando um serviço de cluster pode não fornecer recursos suficientes para SecondayNameNode surgiu. Cada cluster HDFS tem uma SecondayNameNode, pode ser implantado em um único servidor.

1.3 tolerância a falhas HDFS

um, mecanismo de batimento cardíaco: mantida entre um batimento cardíaco e NameNode DataNode. Quando uma falha de rede faz com que DataNode novo pêssego NameNode não recebem normalmente, NameNode não novas operações de I / O que distribuem uma DataNode, dados sobre a DataNode ser considerados inválidos. cheques NameNode para ver se uma cópia do número do bloco do arquivo é menor que o valor definido, se menos do que iniciar automaticamente a nova cópia e distribuir cópias para os outros nós DataNode.

B, a blocos de arquivos e paridade de detecção: Quando a verificação de todos os blocos de cada arquivo não estiver correto, irá obter uma cópia do bloco de outro nós DataNode.

acesso 1,4 HDFS comandos

comando	função	exemplo
hadoop dfs -ls <caminho>	Listar o conteúdo de um arquivo ou pasta	hadoop dfs -ls /
hadoop dfs -lsr <caminho>	conteúdo do diretório lista recursivamente	hadoop dfs -lsr /
hadoop dfs -count <caminho>	árvore de diretórios e o número do arquivo no caminho de exibição	hadoop dfs -count /
hadoop dfs -mv <src> <dst>	Mover o arquivo para a pasta de destino hdfs	hadoop dfs -mv /user/hadoop/a.txt / utilizador / teste Os arquivos A.txt em que o usuário mover / / Hadoop para o diretório seguinte / user / teste
hadoop dfs -rm <caminho>	Hdfs para o caminho superior do percurso de movimento do arquivo como lixo	hadoop dfs -rm /test.txt
hadoop dfsf -put <local> <dst>	Fazer upload de arquivos local para o diretório HDFS <dst>	hadoop dfs -put /home/hadoop/test.txt / utilizador / hadoop
hadoop dfs -cat <src>	O conteúdo do arquivo sob o <src> caminho no hdfs navegador	hadoop dfs -cat /user/hadoop/test.txt
hadoop dfs -mkdir <caminho>	Criar um caminho para o caminho do diretório dos hdfs	hadoop dfs -mkdir / utilizador / teste
hadoop dfs -touchz <caminho>	Criar um caminho para o caminho da hdfs arquivo vazio	hadoop dfs -touchz / utilizador / hadoop / teste
hadoop dfs -chmod [-R] caminho Modo	HDFS alterar permissões em um caminho de arquivo para o caminho, opção -R indica de forma recursiva fazer isso	hadoop dfs -chmod -R + w /user/test.sh O /user/test.sh dada a autoridade para escrever
hadoop dfs -chown [-R] [ower]: caminho [grupo]	Mudar suas hdfs usuário e grupo no caminho para um caminho de arquivo	hadoop dfs -chown -R Zhangsan: Zhangsan /user/test.sh Os arquivos e grupos /user/test.sh pertence substituiu Joe Smith

xuehuagongzi000

发布了159 篇原创文章 · 获赞 75 · 访问量 19万+

私信关注

resumo hadoop de HDFS