instalação totalmente distribuída do hadoop 2.9.2

Instalação
totalmente distribuída Implantação do ambiente totalmente distribuído Hadoop
Totalmente distribuído é o uso real de vários hosts Linux para implantar o Hadoop, planejando o cluster de máquinas Linux, para que cada módulo do Hadoop seja implantado em várias máquinas diferentes;

1. O ambiente está pronto para
a instalação da máquina virtual, use a máquina virtual KVM aqui;

2. Após a configuração da rede
, você pode acessar a rede externa;

3. A configuração do nome do host
distingue os três hosts separadamente;

A configuração 4.hosts
modifica o nome do
host nome do host hadoop-node1
nome do host hadoop-node2
nome do host hadoop-node3

Escreva a correspondência entre os três nomes de host e endereços IP no arquivo hosts;
vim / etc / hosts
10.10.2.177 hadoop-node1
10.10.2.178 hadoop-node2
10.10.2.179 hadoop-node3

5. O planejamento papel funcional do servidor
hadoop-node1 node2-Hadoop O Hadoop-node3
o NameNode ResourceManage
DataNode DataNode DataNode
o NodeManager o NodeManager o NodeManager
HistoryServer SecondaryNameNode

6. Instale o Hadoop em uma máquina
# Aqui, primeiro extraia e configure o hadoop na primeira máquina e depois distribua o arquivo de configuração para as outras duas máquinas para instalar o cluster;
1) Descompacte o diretório hadoop
tar -zxvf /opt/hadoop-2.9.2.tar.gz -C / opt / modules / app /
2) Configure o caminho do Hadoop JDK, modifique o JDK nos arquivos hadoop-env.sh, mapred-env.sh, yarn-env.sh Caminho;
exportar JAVA_HOME = "/ opt / modules / jdk1.7.0_80"
3) Configurar o core-site.xml
cd /opt/modules/app/hadoop-2.9.2/etc/hadoop
vim core-site.xml
<configuração>
<property>
<name> fs.defaultFS </ name>
<value> hdfs: // master: 9000 </ value>
</ property>
<propriedade>
  <name> io.file.buffer.size </ name>
  <value > 131072 </ value>
</ property>
<propriedade>
  <name> hadoop.tmp.dir </ name>
  <valor> / data / tmp </value>
</property>
<property>
   <name> hadoop.proxyuser.hadoop.hosts </ name>
<value> </ value>
</ property>
<property>
   <name> hadoop.proxyuser.hadoop.groups </ name>
  <value>
</ value>
</ property>
</ configuration>
# fs.defaultFS é o endereço do NameNode # hadoop.tmp.dir é o endereço
do diretório temporário do hadoop Por padrão, os arquivos de dados de NameNode e DataNode existirão nos subdiretórios correspondentes desse diretório In. Se esse diretório não existir, você deverá criá-lo manualmente;
4) Configurar escravos #Especifique
quais nós do tipo de dados
cd /opt/modules/hadoopstandalone/hadoop-2.9.2/etc/hadoop
vim slaves
hadoop-node1
hadoop-node2
hadoop- node3
5) Configure hdfs-site.xml
cd /opt/modules/app/hadoop-2.9.2/etc/hadoop
vim hdfs-site.


<name> dfs.namenode.secondary.http-address </name>
<value> hadoop-node3: 50090 </value>
</property>
</configuration>
# dfs.namenode.secondary.http-address http: // hadoop-node3 为 SecondaryNameNode ;
6 配置 yarn-site.xml
cd /opt/modules/app/hadoop-2.9.2/etc/hadoop
vim yarn-site.xml
< propriedade>
<name> yarn.nodemanager.aux-services </name>
<value> mapreduce_shuffle </value>
</property>
<property>
<name> yarn.resourcemanager.hostname </name>
<value> hadoop-node2 < / value>
</property>
<property>
<name> yarn.log-agregation-enable </name>
<valor> verdadeiro </value>
</property>
<property>
<name> yarn.log-agregation.retain-segundos </ name>
<value> 106800 </ value>
</ property>
#De acordo com o planejamento yarn.resourcemanager.hostname, este servidor gerenciador de recursos especificado aponta para hadoop-node2
# yarn.log-agregation -enable é configurar se a função de agregação de log
# yarn.log-aggregation-reter-segundos é configurar por quanto tempo os logs agregados podem ser armazenados no HDFS no máximo
7) Configure mapred-site.xml
#Copy de mapred-site.xml.template Um arquivo mapred-site.xml;
cd /opt/modules/app/hadoop-2.9.2/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<configuração>
<propriedade>
<nome> mapreduce.framework.name </ nome>
<valor> fio </ valor>
</ propriedade>
< / propriedade> <propriedade>
<nome> mapreduce.jobhistory.address </ nome>
<valor> hadoop- node1: 10020 </ value>
</ property>
<property>
<name> mapreduce.jobhistory.webapp.address </ name>
<value> hadoop-node1: 19888 </ value>
</ property>
</ configuration>
#mapreduce .framework.name MapReduce definir a tarefa para ser executada no fio
# mapreduce.jobhistory.address é conjunto de servidores história mapreduce está instalado na máquina hadoop-node1
servidor # mapreduce.jobhistory.webapp.address história é criar um número de endereço de página web e porta

7. Defina SSH sem senha
vai visitar uns aos outros através de cluster Hadoop SSH entre máquinas individuais, cada impraticável senha de acesso, por isso não há necessidade de senha configure SSH entre máquinas individuais;
1) gerar uma chave-on node1 Hadoop pública
SSH -keygen -t rsa #Enter
all, all são os valores padrão. Após a conclusão, o arquivo de chave pública id_rsa.pub e o arquivo de chave privada id_rsa serão gerados no .ssh do diretório inicial do usuário atual
2) Distribua a chave pública
ssh-copy-id hadoop-node1
ssh-copy-id hadoop-node2
ssh-copy-id hadoop-node3
3) Defina o login sem senha do hadoop-node2 / hadoop-node3 para outras máquinas A
mesma operação do hadoop-node1, gera chaves públicas e privadas e depois distribui para as outras três máquinas;

8. Distribua arquivos hadoop
1) Três máquinas criam diretórios Hadoop
mkdir -p / opt / modules / app
2) Distribua arquivos hadoop via scp
# O diretório share / doc no diretório raiz do Hadoop é usado para armazenar documentos hadoop, os arquivos são maiores antes da distribuição Pode ser excluído diretamente para melhorar a velocidade de distribuição;
scp -r /opt/modules/app/hadoop-2.9.2/ hadoop-node2: / opt / modules / app /
scp -r /opt/modules/app/hadoop-2.9. 2 / hadoop-node3: / opt / modules / app /

9. Formato NameNode
# Execute a formatação na máquina NameNode - nó master /
opt / modules / app / hadoop-2.9.2 / bin / hdfs namenode -format # Observação
: Se você precisar reformatar o NameNode, precisará alterar Todos os arquivos no DataNode são excluídos, caso contrário, um erro será relatado. NameNode diretório DataNode e é o core-site.xml hadoop.tmp.dir, dfs.namenode.dir configurado, atributo dfs.datanode.data.dir;
<property>
<name> hadoop.tmp.dir </ name>
<valor> / opt / data / tmp </ value>
</ property>
<property>
<name> dfs.namenode.name.dir </ name>
<value> arquivo: // $ {hadoop.tmp.dir} / dfs / nome </ valor>
</ propriedade>
<propriedade>
<nome> dfs.datanode.data.dir </ nome
> arquivo <valor>: // $ {hadoop.tmp.dir} / dfs / data </ ​​value >
</ propriedade>
#Por cada formato, o padrão é criar um ID de cluster e gravá-lo no arquivo VERSION de NameNode e DataNode (o diretório em que o arquivo VERSION está localizado é dfs / name / current e dfs / data / current). Ao reformatar, o padrão será Gere um novo ID de cluster. Se você não excluir o diretório original, ele causará o novo ID de cluster no arquivo VERSION no namenode e o antigo ID de cluster no DataNode, resultando em erros inconsistentes; #Outro
método é ao formatar Especifique o parâmetro do ID do cluster, especificado como o valor antigo do ID do cluster;

10. Inicie o cluster
1) Inicie o
HDFS # hadoop-node1, inicie o HDFS
/opt/modules/app/hadoop-2.9.2/sbin/start-dfs.sh
2) inicie YARN
# nó hadoop-node2 start yarn
/ opt / modules /app/hadoop-2.9.2/sbin/start-yarn.sh #Start
ResourceManager
cd /opt/modules/app/hadoop-2.9.2
sbin / yarn-daemon.sh inicia o resourcemanager no hadoop-node2
3) Log de inicialização Servidor
# De acordo com o plano, inicie o serviço de log MapReduce no hadoop-node3
cd /opt/modules/app/hadoop-2.9.2/sbin/mr-jobhistory-daemon.sh start historyserver #Ver o
status da inicialização
jps
4) Exibir a Web do HDFS Página
http://10.10.2.177:50070
5) Visualizar a página da web do YARN
http://10.10.2.178:8088

11. Tarefa de teste
Aqui, use o exemplo de contagem de palavras que acompanha o hadoop para testar e executar o
teste mapreduce no modo local.O processo de teste deve ser executado no nó de execução do fio (hadoop-node2), incluindo a criação do diretório de armazenamento hdfs, o upload do arquivo de teste wc.input, Resultados do teste de cálculo de saída;

1) Prepare o arquivo de entrada mapreduce wc.input
cd / opt / data /
touch wc.input
vim wc.input
hadoop mapreduce hive hbase
spark storm
sqoop hadoop hive
spark hadoop
2) Crie o diretório de entrada
cd / opt / modules / app no HDFS /hadoop-2.9.2/
bin / hdfs dfs -mkdir / input
3) Carregar wc.input no HDFS
cd /opt/modules/app/hadoop-2.9.2/
bin / hdfs dfs -put / opt / data / wc .input /input/wc.input
4) Execute a demo mapreduce
cd /opt/modules/app/hadoop-2.9.2/
bin / yarn jar share / hadoop / mapreduce / hadoop-mapreduce-examples-2.9.2 que vem com o hadoop .jar wordcount /input/wc.input / output
5) Visualize o arquivo de saída
cd /opt/modules/app/hadoop-2.9.2/
bin / hdfs dfs -ls / output

12.
Versão da captura de tela de status 2.9.2
instalação totalmente distribuída do hadoop 2.9.2

instalação totalmente distribuída do hadoop 2.9.2

instalação totalmente distribuída do hadoop 2.9.2

http://10.10.2.177:50070/dfshealth.html#tab-overview

instalação totalmente distribuída do hadoop 2.9.2

instalação totalmente distribuída do hadoop 2.9.2

instalação totalmente distribuída do hadoop 2.9.2

instalação totalmente distribuída do hadoop 2.9.2

http://10.10.2.178:8088/cluster/nodes

instalação totalmente distribuída do hadoop 2.9.2

Versão 3.0.0

instalação totalmente distribuída do hadoop 2.9.2

instalação totalmente distribuída do hadoop 2.9.2

instalação totalmente distribuída do hadoop 2.9.2

instalação totalmente distribuída do hadoop 2.9.2

instalação totalmente distribuída do hadoop 2.9.2

Acho que você gosta

Origin blog.51cto.com/driver2ice/2486106
Recomendado
Clasificación