Capítulo V implantar ambiente de dados grande para construir um pseudo---Spark distribuído

Capítulo V implantar ambiente de dados grande para construir um pseudo---Spark distribuído

Introdução: esta série de tutoriais, trazendo o leitor padrão foi instalado Hadoop, jdk;
se já não estiver configurado esses serviços, você pode ver a configuração Bowen conduta de referência anterior autor

Primeiro, a fase preparatória

  • download do arquivo scala e configuração
    (1) no site do scala oficial para copiar o link de download
    para baixar o site oficial: https://www.scala-lang.org/download/
    Aqui Insert Picture Descrição
    no site oficial do Ministério do drop-down no final escolher este formato de arquivo para copiar o link de download
    (2) Baixe e descompacte arquivo de
    comando: wget https://downloads.lightbend.com/scala/2.13.1/scala-2.13.1.tgz
    Aqui Insert Picture Descrição
    o extrato arquivo baixado para ~ / opt / diretório
    comando: tar -zxvf scala-2.13.1 .tgz -C ~ / opt /
    Aqui Insert Picture Descrição
    criar uma ligação suave da parte traseira para fácil manutenção

Comando: ln -s ~ / opt / scala-2.13.1 / ~ / opt / scala

Aqui Insert Picture Descrição
Modificar o ambiente scala o arquivo de configuração .bashrc

Comando: vim .bashrc

在文件的末尾插入scala的位置信息

exportação SCALA_HOME = / home / zh123 / opt / scala
export PATH = $ PATH: $ SCALA_HOME / bin

Aqui Insert Picture Descrição
Depois que você terminar de usar o comando:

.bashrc fonte de modo que apenas a configuração tenha efeito

然后使用命令

scala scala -version teste para ver se a versão de vista o sucesso

Aqui Insert Picture Descrição

  • download do arquivo faísca
    (1) Entre no site oficial
    endereço do site oficial: http://spark.apache.org/downloads.html
    selecionar a versão necessária para baixar
    Aqui Insert Picture Descrição
    copiar a imagem de download link da fonte Tsinghua
    Aqui Insert Picture Descrição
    (2) Baixe e descompacte o arquivo

Comando wget http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz

Aqui Insert Picture Descrição
Extraia o arquivo baixado para a próxima bom ~ / opt / diretório

命令: alcatrão -zxvf faísca-2.4.5-bin-hadoop2.7.tgz -C ~ / opt /

Aqui Insert Picture Descrição
Criar um soft link para o arquivo após a descompressão

命令: ln -s ~ / opt / faísca-2.4.5-bing-hadoop2.7 / ~ / opt / faísca

Aqui Insert Picture Descrição
Editar .bashrc informações caminho do arquivo adicionado

Comando: vim .bashrc
conteúdo add:
Export SPARK_HOME = / Home / zh123 / opt / Spark
Export PATH = $ PATH: $ SPARK_HOME / bin

Aqui Insert Picture Descrição
Dois, configuração do ambiente de faísca

  • 1, um exemplo de configuração da faísca cópia

Comando: cp faísca-env.sh.template spark-env.sh

Aqui Insert Picture Descrição

  • 2, modificar o arquivo de configuração spark-env.sh

Comando: vim spark-env.sh

Adicionar conteúdo:

export JAVA_HOME = / home / zh123 / opt / java exportação
HADOOP_HOME = / home / zh123 / hadoop exportação
HADOOP_CONF_DIR = / home / zh123 / hadoop / etc / hadoop exportação
SCALA_HOME = / home / zh123 / scala exportação SPARK_HOME = / home / zh123 / faísca
exportação SPARK_MASTER_IP = 192.168.96.185 exportação SPARK_MASTER_PORT = 7077
exportação SPARK_MASTER_WEBUI_PORT = 8099 SPARK_WORKER_CORES exportação = 2 exportação
SPARK_WORKER_INSTANCES = 1 exportação exportação 2G SPARK_WORKER_MEMORY =
SPARK_EXECUTOR_CORES SPARK_WORKER_WEBUI_PORT = 8081 exportação = 1 exportação
1G exportação SPARK_EXECUTOR_MEMORY =
LD_LIBRARY_PATH = $ {LD_LIBRARY_PATH}: $ HADOOP_HOME / lib / nativa

explicação conteúdo:

Os nomes das variáveis explicação
JAVA_HOME diretório de instalação do JDK
HADOOP_HOME diretório de instalação do Hadoop
HADOOP_CONF_DIR diretório de armazenamento do arquivo de configuração do Hadoop
SCALA_HOME diretório de instalação scala
SPARK_HOME diretório de instalação faísca
SPARK_MASTER_IP mestre faísca nó endereço ligado
SPARK_MASTER_PORT O nó mestre número da porta de ignição ligado
SPARK_MASTER_WEBUI_PORT nó mestre faísca porta web
SPARK_WORKER_CORES trabalhador núcleos de CPU usado
SPARK_WORKER_INSTANCES Exemplos do número de simultaneamente o arranque de EXECUTOR
SPARK_WORKER_MEMORY A quantidade de trabalhador memória alocada
SPARK_WORKER_WEBUI_PORT número da porta da página para visualizar o trabalhador obrigado
SPARK_EXECUTOR_CORES núcleos de CPU alocada para cada executor
SPARK_EXECUTOR_MEMORY Cada montante executor de memória alocada
LD_LIBRARY_PATH Especificar onde encontrar a biblioteca compartilhada

Aqui Insert Picture Descrição

  • 3, a pomada configuração de nó de
    cópias do exemplo de configuração original de um documento

命令: escravos cp slaves.template

Aqui Insert Picture Descrição
Editar escravos arquivo
modificação endereço do nó escravo
! ! ! Note que eu escrevo aqui é o mestre dele implica um endereço IP é o endereço IP da máquina (192.168.96.185)
se não tiver configurado aqui vai abordar erros de mapeamento resolução
leitores precisam de ver / configuração etc aqui quando arquivo / hosts a configuração do mapa vista
Aqui Insert Picture Descrição

Em terceiro lugar, começar a faísca teste

  • Em primeiro lugar, temos de começar a hadoop

Comando: start-all.sh

Aqui Insert Picture Descrição

  • Comece faísca
    porque não há nenhuma faísca de configuração variável de ambiente / sbin diretórios você precisa cd para o próximo faísca sbin novamente ser iniciado (variável de ambiente não estiver configurado para este diretório é porque o nome do arquivo de inicialização e inicialização arquivos start-all.sh a centelha do Hadoop o mesmo nome, com o conflito, a solução pode estar em um dos dois arquivos podem ser renomeados, onde o leitor há operações relacionadas, e é um caminho direto para a plena implementação do início especificada)
    Aqui Insert Picture Descrição
    para essa centelha distribuídos-pseudo da configuração de instalação é longo
Publicado 27 artigos originais · ganhou elogios 62 · vê 10000 +

Acho que você gosta

Origin blog.csdn.net/qq_42359956/article/details/104234877
Recomendado
Clasificación