Capítulo V implantar ambiente de dados grande para construir um pseudo---Spark distribuído

Introdução: esta série de tutoriais, trazendo o leitor padrão foi instalado Hadoop, jdk;
se já não estiver configurado esses serviços, você pode ver a configuração Bowen conduta de referência anterior autor

Primeiro, a fase preparatória

download do arquivo scala e configuração
(1) no site do scala oficial para copiar o link de download
para baixar o site oficial: https://www.scala-lang.org/download/

no site oficial do Ministério do drop-down no final escolher este formato de arquivo para copiar o link de download
(2) Baixe e descompacte arquivo de
comando: wget https://downloads.lightbend.com/scala/2.13.1/scala-2.13.1.tgz

o extrato arquivo baixado para ~ / opt / diretório
comando: tar -zxvf scala-2.13.1 .tgz -C ~ / opt /

criar uma ligação suave da parte traseira para fácil manutenção

Comando: ln -s ~ / opt / scala-2.13.1 / ~ / opt / scala

Aqui Insert Picture Descrição
Modificar o ambiente scala o arquivo de configuração .bashrc

Comando: vim .bashrc

在文件的末尾插入scala的位置信息

exportação SCALA_HOME = / home / zh123 / opt / scala
export PATH = $ PATH: $ SCALA_HOME / bin

Aqui Insert Picture Descrição
Depois que você terminar de usar o comando:

.bashrc fonte de modo que apenas a configuração tenha efeito

然后使用命令

scala scala -version teste para ver se a versão de vista o sucesso

Aqui Insert Picture Descrição

download do arquivo faísca
(1) Entre no site oficial
endereço do site oficial: http://spark.apache.org/downloads.html
selecionar a versão necessária para baixar

copiar a imagem de download link da fonte Tsinghua

(2) Baixe e descompacte o arquivo

Comando wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz

Aqui Insert Picture Descrição
Extraia o arquivo baixado para a próxima bom ~ / opt / diretório

命令: alcatrão -zxvf faísca-2.4.5-bin-hadoop2.7.tgz -C ~ / opt /

Aqui Insert Picture Descrição
Criar um soft link para o arquivo após a descompressão

命令: ln -s ~ / opt / faísca-2.4.5-bing-hadoop2.7 / ~ / opt / faísca

Aqui Insert Picture Descrição
Editar .bashrc informações caminho do arquivo adicionado

Comando: vim .bashrc
conteúdo add:
Export SPARK_HOME = / Home / zh123 / opt / Spark
Export PATH = $ PATH: $ SPARK_HOME / bin

Aqui Insert Picture Descrição
Dois, configuração do ambiente de faísca

1, um exemplo de configuração da faísca cópia

Comando: cp faísca-env.sh.template spark-env.sh

Aqui Insert Picture Descrição

2, modificar o arquivo de configuração spark-env.sh

Comando: vim spark-env.sh

Adicionar conteúdo:

export JAVA_HOME = / home / zh123 / opt / java exportação
HADOOP_HOME = / home / zh123 / hadoop exportação
HADOOP_CONF_DIR = / home / zh123 / hadoop / etc / hadoop exportação
SCALA_HOME = / home / zh123 / scala exportação SPARK_HOME = / home / zh123 / faísca
exportação SPARK_MASTER_IP = 192.168.96.185 exportação SPARK_MASTER_PORT = 7077
exportação SPARK_MASTER_WEBUI_PORT = 8099 SPARK_WORKER_CORES exportação = 2 exportação
SPARK_WORKER_INSTANCES = 1 exportação exportação 2G SPARK_WORKER_MEMORY =
SPARK_EXECUTOR_CORES SPARK_WORKER_WEBUI_PORT = 8081 exportação = 1 exportação
1G exportação SPARK_EXECUTOR_MEMORY =
LD_LIBRARY_PATH = $ {LD_LIBRARY_PATH}: $ HADOOP_HOME / lib / nativa

explicação conteúdo:

Os nomes das variáveis	explicação
JAVA_HOME	diretório de instalação do JDK
HADOOP_HOME	diretório de instalação do Hadoop
HADOOP_CONF_DIR	diretório de armazenamento do arquivo de configuração do Hadoop
SCALA_HOME	diretório de instalação scala
SPARK_HOME	diretório de instalação faísca
SPARK_MASTER_IP	mestre faísca nó endereço ligado
SPARK_MASTER_PORT	O nó mestre número da porta de ignição ligado
SPARK_MASTER_WEBUI_PORT	nó mestre faísca porta web
SPARK_WORKER_CORES	trabalhador núcleos de CPU usado
SPARK_WORKER_INSTANCES	Exemplos do número de simultaneamente o arranque de EXECUTOR
SPARK_WORKER_MEMORY	A quantidade de trabalhador memória alocada
SPARK_WORKER_WEBUI_PORT	número da porta da página para visualizar o trabalhador obrigado
SPARK_EXECUTOR_CORES	núcleos de CPU alocada para cada executor
SPARK_EXECUTOR_MEMORY	Cada montante executor de memória alocada
LD_LIBRARY_PATH	Especificar onde encontrar a biblioteca compartilhada

Aqui Insert Picture Descrição

3, a pomada configuração de nó de
cópias do exemplo de configuração original de um documento

命令: escravos cp slaves.template

Aqui Insert Picture Descrição
Editar escravos arquivo
modificação endereço do nó escravo
! ! ! Note que eu escrevo aqui é o mestre dele implica um endereço IP é o endereço IP da máquina (192.168.96.185)
se não tiver configurado aqui vai abordar erros de mapeamento resolução
leitores precisam de ver / configuração etc aqui quando arquivo / hosts a configuração do mapa vista
Aqui Insert Picture Descrição

Em terceiro lugar, começar a faísca teste

Em primeiro lugar, temos de começar a hadoop

Comando: start-all.sh

Aqui Insert Picture Descrição

Comece faísca
porque não há nenhuma faísca de configuração variável de ambiente / sbin diretórios você precisa cd para o próximo faísca sbin novamente ser iniciado (variável de ambiente não estiver configurado para este diretório é porque o nome do arquivo de inicialização e inicialização arquivos start-all.sh a centelha do Hadoop o mesmo nome, com o conflito, a solução pode estar em um dos dois arquivos podem ser renomeados, onde o leitor há operações relacionadas, e é um caminho direto para a plena implementação do início especificada)

para essa centelha distribuídos-pseudo da configuração de instalação é longo

Nick não pode

Publicado 27 artigos originais · ganhou elogios 62 · vê 10000 +

carta particular preocupações

Capítulo V implantar ambiente de dados grande para construir um pseudo---Spark distribuído

Capítulo V implantar ambiente de dados grande para construir um pseudo---Spark distribuído

Acho que você gosta