principio

Inserte la descripción de la imagen aquí
Nota:

En el desarrollo real, las tareas de big data se gestionan mediante herramientas unificadas de gestión de recursos y programación de tareas. El hilo es el más utilizado.
Debido a que es maduro y estable, admite múltiples estrategias de programación: FIFO / Capcity / Fair
Puede usar la programación de Yarn para administrar MR / Hive / Spark / Flink

instalación

Apague el clúster independiente Spark anterior
/export/server/spark/sbin/stop-all.sh
Configure el servidor de historial de Yarn y desactive la verificación de recursos
vim /export/servers/hadoop/etc/hadoop/yarn-site.xml

<configuration>
    <!-- 配置yarn主节点的位置 -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>node01</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <!-- 设置yarn集群的内存分配方案 -->
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>20480</value>
    </property>
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>2048</value>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-pmem-ratio</name>
        <value>2.1</value>
    </property>
    <!-- 开启日志聚合功能 -->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>
    <!-- 设置聚合日志在hdfs上的保存时间 -->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
    <!-- 设置yarn历史服务器地址 -->
    <property>
        <name>yarn.log.server.url</name>
        <value>http://node01:19888/jobhistory/logs</value>
    </property>
    <!-- 关闭yarn内存检查 -->
    <property>
        <name>yarn.nodemanager.pmem-check-enabled</name>
        <value>false</value>
    </property>
    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>
</configuration>

Nota: Si no hay configuración antes, ahora debe distribuirse y reiniciarse el hilo.

cd /export/servers/hadoop/etc/hadoop
scp -r yarn-site.xml root@node02:$PWD
scp -r yarn-site.xml root@node03:$PWD
关闭yarn：
/export/server/hadoop/sbin/stop-yarn.sh
打开yarn：
/export/server/hadoop/sbin/start-yarn.sh

Configurar la integración del servidor de historial de Spark y Yarn

Modificar spark-defaults.conf

进入配置目录
cd /export/servers/spark/conf

修改配置文件名称
mv spark-defaults.conf.template spark-defaults.conf

vim spark-defaults.conf
添加内容：
spark.eventLog.enabled                  true
spark.eventLog.dir                      hdfs://node01:8020/sparklog/
spark.eventLog.compress                 true
spark.yarn.historyServer.address        node01:18080

Modificar spark-env.sh

修改配置文件
vim /export/servers/spark/conf/spark-env.sh

增加如下内容：
## 配置spark历史日志存储地址
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node01:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

注意:sparklog需要手动创建
hadoop fs -mkdir -p /sparklog

Modificar el nivel de registro

进入目录
cd /export/servers/spark/conf

修改日志属性配置文件名称
mv log4j.properties.template log4j.properties

改变日志级别
vim log4j.properties

修改内容如下：

Inserte la descripción de la imagen aquí

Distribución opcional, si solo envía tareas de chispa al hilo en el nodo1, entonces no necesita distribuir

cd /export/servers/spark/conf
scp -r spark-env.sh root@node02:$PWD
scp -r spark-env.sh root@node03:$PWD
scp -r spark-defaults.conf root@node02:$PWD
scp -r spark-defaults.conf root@node03:$PWD
scp -r log4j.properties root@node02:$PWD
scp -r log4j.properties root@node03:$PWD

Configurar el paquete jar de Spark dependiente

Cree un directorio para almacenar paquetes jar relacionados con Spark en HDFS
hadoop fs -mkdir -p /spark/jars/
Cargue todos los paquetes jar de $ SPARK_HOME / jars a HDFS
hadoop fs -put /export/servers/spark/jars/* /spark/jars/
Modificar spark-defaults.conf en node01

vim /export/servers/spark/conf/spark-defaults.conf
添加内容：
spark.yarn.jars  hdfs://node01:8020/spark/jars/*

分发同步-可选
cd /export/servers/spark/conf
scp -r spark-defaults.conf root@node02:$PWD
scp -r spark-defaults.conf root@node03:$PWD

Comienza el servicio

Para iniciar los servicios HDFS y YARN, ejecute el comando
start-dfs.sh
start-yarn.sh
o
start-all.sh en node01

-Inicie el servicio MRHistoryServer, ejecute el comando
mr-jobhistory-daemon.sh start historyserver en node01

Inicie el servicio Spark HistoryServer y ejecute el comando
/export/servers/spark/sbin/start-history-server.sh en node01
Página de la interfaz de usuario WEB del servicio MRHistoryServer:
http: // node01: 19888
Página de interfaz de usuario WEB del servicio Spark HistoryServer:
http: // node01: 18080 /

Spark-On-Yarn integrado en el entorno Spark

Directorio de artículos

principio

instalación

Supongo que te gusta