Directorio de artículos
principio
Nota:
- En el desarrollo real, las tareas de big data se gestionan mediante herramientas unificadas de gestión de recursos y programación de tareas. El hilo es el más utilizado.
- Debido a que es maduro y estable, admite múltiples estrategias de programación: FIFO / Capcity / Fair
- Puede usar la programación de Yarn para administrar MR / Hive / Spark / Flink
instalación
-
Apague el clúster independiente Spark anterior
/export/server/spark/sbin/stop-all.sh
-
Configure el servidor de historial de Yarn y desactive la verificación de recursos
vim /export/servers/hadoop/etc/hadoop/yarn-site.xml
<configuration>
<!-- 配置yarn主节点的位置 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>node01</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 设置yarn集群的内存分配方案 -->
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>20480</value>
</property>
<property>
<name>yarn.scheduler.minimum-allocation-mb</name>
<value>2048</value>
</property>
<property>
<name>yarn.nodemanager.vmem-pmem-ratio</name>
<value>2.1</value>
</property>
<!-- 开启日志聚合功能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 设置聚合日志在hdfs上的保存时间 -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>
<!-- 设置yarn历史服务器地址 -->
<property>
<name>yarn.log.server.url</name>
<value>http://node01:19888/jobhistory/logs</value>
</property>
<!-- 关闭yarn内存检查 -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
</configuration>
Nota: Si no hay configuración antes, ahora debe distribuirse y reiniciarse el hilo.
cd /export/servers/hadoop/etc/hadoop
scp -r yarn-site.xml root@node02:$PWD
scp -r yarn-site.xml root@node03:$PWD
关闭yarn:
/export/server/hadoop/sbin/stop-yarn.sh
打开yarn:
/export/server/hadoop/sbin/start-yarn.sh
- Configurar la integración del servidor de historial de Spark y Yarn
- Modificar spark-defaults.conf
进入配置目录
cd /export/servers/spark/conf
修改配置文件名称
mv spark-defaults.conf.template spark-defaults.conf
vim spark-defaults.conf
添加内容:
spark.eventLog.enabled true
spark.eventLog.dir hdfs://node01:8020/sparklog/
spark.eventLog.compress true
spark.yarn.historyServer.address node01:18080
- Modificar spark-env.sh
修改配置文件
vim /export/servers/spark/conf/spark-env.sh
增加如下内容:
## 配置spark历史日志存储地址
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://node01:8020/sparklog/ -Dspark.history.fs.cleaner.enabled=true"
注意:sparklog需要手动创建
hadoop fs -mkdir -p /sparklog
- Modificar el nivel de registro
进入目录
cd /export/servers/spark/conf
修改日志属性配置文件名称
mv log4j.properties.template log4j.properties
改变日志级别
vim log4j.properties
修改内容如下:
- Distribución opcional, si solo envía tareas de chispa al hilo en el nodo1, entonces no necesita distribuir
cd /export/servers/spark/conf
scp -r spark-env.sh root@node02:$PWD
scp -r spark-env.sh root@node03:$PWD
scp -r spark-defaults.conf root@node02:$PWD
scp -r spark-defaults.conf root@node03:$PWD
scp -r log4j.properties root@node02:$PWD
scp -r log4j.properties root@node03:$PWD
- Configurar el paquete jar de Spark dependiente
-
Cree un directorio para almacenar paquetes jar relacionados con Spark en HDFS
hadoop fs -mkdir -p /spark/jars/
-
Cargue todos los paquetes jar de $ SPARK_HOME / jars a HDFS
hadoop fs -put /export/servers/spark/jars/* /spark/jars/
-
Modificar spark-defaults.conf en node01
vim /export/servers/spark/conf/spark-defaults.conf
添加内容:
spark.yarn.jars hdfs://node01:8020/spark/jars/*
分发同步-可选
cd /export/servers/spark/conf
scp -r spark-defaults.conf root@node02:$PWD
scp -r spark-defaults.conf root@node03:$PWD
- Comienza el servicio
- Para iniciar los servicios HDFS y YARN, ejecute el comando
start-dfs.sh
start-yarn.sh
o
start-all.sh en node01
-Inicie el servicio MRHistoryServer, ejecute el comando
mr-jobhistory-daemon.sh start historyserver en node01
-
Inicie el servicio Spark HistoryServer y ejecute el comando
/export/servers/spark/sbin/start-history-server.sh en node01 -
Página de la interfaz de usuario WEB del servicio MRHistoryServer:
http: // node01: 19888 -
Página de interfaz de usuario WEB del servicio Spark HistoryServer:
http: // node01: 18080 /