版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wen_fei/article/details/84780078
大数据求索(4):配置Spark History Server
修改配置文件
- 修改conf/spark-default.conf
cp spark-default.conf.template spark-default.conf
vim spark-default.conf
属性说明
(1) spark.eventLog.enabled。
是否记录Spark事件,用于应用程序在完成后的筹够WebUI。
(2) spark.eventLog.dir。
设置spark.eventLog.enabled为true后,该属性为记录spark时间的根目录。在此根目录中,Spark为每个应用程序创建分目录,并将应用程序的时间记录到此目录中。用户可以将此属性设置为HDFS目录,以便History Server读取。
- 修改conf/spark-env.sh
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://wds001:8020/spark-history"
注意:hdfs的目录要提前创建好,不然会报错
属性说明
(1) spark.history.ui.port
web可视化端口
(2) spark.history.retainedApplications
设置缓存Cache中保存的应用程序历史记录的个数,默认50,如果超过这个值,旧的将被删除。注:缓存文件数不表示实际显示的文件总数。只是表示不在缓存中的文件可能需要从硬盘读取,速度稍有差别。
(3) spark.history.fs.logDirectory
存放历史记录文件的目录。可以是Hadoop APIs支持的任意文件系统。
启动
依次启动Hadoop的start-dfs.sh
和Spark的start-all.sh
后,再运行start-history-server.sh
文件即可启动历史服务。