大数据运维知识

大数据介绍

1.数据的存储（big data storage），海量数据需要处理和分析，但前提是要进行有效的存储。稍后会提到Hadoop（HDFS）分布式文件系统对超大数据集的容错性问题。

2.数据的计算（Data calculation），在数据有效存储的基础上，对数据的统计和分析本质上就是数据的计算。在大数据领域常见的计算工具有MapReduce、Spark等。

3.数据的查询（consensus data），对大数据进行有效管理的核心指标是数据查询技术。其中NoSQL (Not Only SQL)应用较为广泛，能较有效解决数据的随机查询，其中就主要包括Hbase等。从本质而言，依旧是Hadoop模式下的数据查询。

4.数据的挖掘（Data mining），数据仓库为数据的挖掘提供了基础，通过分类、预测、相关性分析来建立模型进行模式识别、机器学习从而构建专家系统。

以上这四点就是Hadoop、Hive、Spark共同完成的目标。

Hadoop：从本质上讲是一个分布式文件系统（HDFS）

Spark：是数据的计算就是在HDFS基础上进行分类汇总

Hive：是数据仓库工具，首先它是建立在HDFS基础之上的，将HDFS中结构化的数据映射为数据库中的表，仅仅通过SQL语句就可以查询MapReduce的计算结果，同时还可以通过SQL对文件系统中的数据进行修改

1) hive运维知识

2) Hadoop 运维知识

HDFS: Hadoop Distributed File System 分布式文件系统
YARN: Yet Another Resource Negotiator 资源管理调度系统
Mapreduce：分布式运算框架

1. centos上搭建Hadoop集群

这里搭建的是3个节点的完全分布式，即1个nameNode，2个dataNode,分别如下：

master nameNode 192.168.0.249

node1 dataNode 192.168.0.251

node2 dataNode 192.168.0.252

1.首先创建好一个CentOS虚拟机，将它作为主节点我这里起名为master，起什么都行，不固定要求

2.VMware中打开虚拟机，输入java -version，检查是否有JDK环境，不要用系统自带的openJDK版本，要自己安装的版本

3.输入 firewall-cmd --state，若防火墙处于running状态，则关闭防火墙

systemctl stop firewalld.service 关闭防火墙

systemctl disable firewalld.service 禁用防火墙

4.输入mkdir /usr/local/hadoop 创建一个hadoop文件夹

5.将hadoop-3.0.3.tar.gz放到刚创建好的hadoop文件夹中

6.进入hadoop目录，输入tar -xvf hadoop-3.0.3.tar.gz 解压tar包

[root@master sbin]# cd /usr/local/hadoop/

[root@master hadoop]# ls

hadoop-3.0.3 hadoop-3.0.3.tar.gz

7.输入 vi /etc/profile，配置环境变量。加入如如下内容

export HADOOP_HOME=/usr/local/hadoop/hadoop-3.0.3

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

8. 输入 souce /etc/profile ，使环境变量改动生效

9.任意目录输入hado，然后按Tab，如果自动补全为hadoop,则说明环境变量配的没问题，否则检查环境变量哪出错了

[root@master ~]# hadoop

10.创建3个之后要用到的文件夹，分别如下：

mkdir /usr/local/hadoop/tmp

mkdir -p /usr/local/hadoop/hdfs/name

mkdir /usr/local/hadoop/hdfs/data

11.进入hadoop-3.0.3解压后的 /etc/hadoop 目录，里面存放的是hadoop的配置文件，接下来要修改里面一些配置文件

12. 有两个 .sh 文件，需要指定一下java的目录，首先输入 vi hadoop-env.sh 修改配置文件

[root@master hadoop]# vi hadoop-env.sh

将原有的JAVA_HOME注释掉，根据自己的JDK安装位置，精确配置JAVA_HOME如下，保存并退出

export JAVA_HOME=/usr/local/java/jdk1.8.0_161/

13. 输入 vi yarn-env.sh 修改配置文件

[root@master hadoop]# vi yarn-env.sh

加入如下内容，指定JAVA_HOME,保存并退出

export JAVA_HOME=/usr/local/java/jdk1.8.0_161/

14. 输入 vi core-site.xml 修改配置文件

[root@master hadoop]# vi core-site.xml

在configuration标签中，添加如下内容，保存并退出，注意这里配置的hdfs:master:9000是不能在浏览器访问的

<!--

<name> fs.default.name </name>

<value>hdfs://master:9000</value>

<description>指定HDFS的默认名称,HDFS的URI</description>

</property>

-->

<name>fs.defaultFS</name>

<value>hdfs://master:9000</value>

<description>HDFS的URI</description>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/usr/local/hadoop/tmp</value>

<description>节点上本地的hadoop临时文件夹</description>

</property>

15. 输入 vi hdfs-site.xml 修改配置文件

[root@master hadoop]# vi hdfs-site.xml

在configuration标签中，添加如下内容，保存并退出

<name>dfs.namenode.http-address</name>

<value>master:50070</value>

</property>

<!--

<name>dfs.datanode.http.address</name>

<value>master:50075</value>

The datanode http server address and port.

If the port is 0 then the server will start on a free port.

</description>

</property>

-->

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/hadoop/hdfs/name</value>

<description>namenode上存储hdfs名字空间元数据 </description>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/hadoop/hdfs/data</value>

<description>datanode上数据块的物理存储位置</description>

</property>

<name>dfs.replication</name>

<description>副本个数，默认是3,应小于datanode机器数量</description>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

<name>dfs.permissions.enabled</name>

<value>false</value>

</property>

16. 输入 vi mapred-site.xml 修改配置文件

[root@master hadoop]# vi mapred-site.xml

在configuration标签中，添加如下内容，保存并退出

<name>mapreduce.framework.name</name>

<description>指定mapreduce使用yarn框架</description>

</property>

17. vi yarn-site.xml 修改配置文件

[root@master hadoop]# vi yarn-site.xml

在configuration标签中，添加如下内容，保存并退出

<name>yarn.resourcemanager.hostname</name>

<value>master</value>

<description>指定resourcemanager所在的hostname</description>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

NodeManager上运行的附属服务。

需配置成mapreduce_shuffle，才可运行MapReduce程序

</description>

</property>

18. 输入 vi workers 修改配置文件（老版本是slaves文件，3.0.3 用 workers 文件代替 slaves 文件）

[root@master hadoop]# pwd

/usr/local/hadoop/hadoop-3.0.3/etc/hadoop

[root@master hadoop]# vi workers

将localhost删掉，加入如下内容，即dataNode节点的主机名

node1

node2

19. 将虚拟机关闭，再复制两份虚拟机，重命名为node1,node2，注意这里一定要关闭虚拟机，再复制

20. 将3台虚拟机都打开，后两台复制的虚拟机打开时，都选择“我已复制该虚拟机”

21. 在master机器上，输入vi /etc/hostname，将localhost改为master，保存并退出

22. 在node1机器上，输入 vi /etc/hostname，将localhost改为node1，保存并退出

23. 在node2机器上，输入 vi /etc/hostname，将localhost改为node2，保存并退出

24. 在三台机器分别输入 vi /etc/hosts 修改文件，其作用是将一些常用的网址域名与其对应的IP地址建立一个关联，当用户在访问网址时，系统会首先自动从Hosts文件中寻找对应的IP地址

三个文件中都加入如下内容，保存并退出，注意这里要根据自己实际IP和节点主机名进行更改，IP和主机名中间要有一个空格

192.168.0.249 master

192.168.0.251 node1

192.168.0.252 node2

25. 配置三台机器间的免密登录ssh (搭hadoop必须要配免密登录)

可参见https://blog.csdn.net/wudinaniya/article/details/80845845

26. 如果node节点还没有hadoop，则master机器上分别输入如下命令将hadoop复制

scp /usr/local/hadoop/* root@node1:/usr/local/hadoop

scp /usr/local/hadoop/* root@node2:/usr/local/hadoop

27. 在master机器上，任意目录输入 hdfs namenode -format 格式化namenode，第一次使用需格式化一次，之后就不用再格式化，如果改一些配置文件了，可能还需要再次格式化

hdfs namenode -format

格式化完成。

28. 在master机器上，进入hadoop的sbin目录，输入 ./start-all.sh 启动hadoop（若只配了hdfs，则可以输入 ./start-dfs.sh 启动hdfs）

[root@master sbin]# ./start-dfs.sh

29. 输入jps查看当前java的进程，

该命令是JDK1.5开始有的，作用是列出当前java进程的PID和Java主类名，nameNode节点除了JPS，还有3个进程，启动成功

若为了只使用hdfs而只配了hdfs，采用 ./start-dfs.sh 启动，则

30. 在node1机器和node2机器上分别输入 jps 查看进程如下，说明配置成功

若只配置了hdfs，采用 ./start-dfs.sh 启动。则

31. 在浏览器访问nameNode节点的8088端口和50070端口可以查看hadoop的运行状况

32. 在master机器上，进入hadoop的sbin目录，输入 ./stop-all.sh 关闭hadoop 或输入 ./stop-dfs.sh 关闭dfs

遇到的坑：Attempting to operate on hdfs namenode as root

写在最前注意：

1、master，slave都需要修改start-dfs.sh，stop-dfs.sh，start-yarn.sh，stop-yarn.sh四个文件

2、如果你的Hadoop是另外启用其它用户来启动，记得将root改为对应用户

HDFS格式化后启动dfs出现以下错误：

[root@master sbin]# ./start-dfs.sh

Starting namenodes on [master]

ERROR: Attempting to operate on hdfs namenode as root

ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.

Starting datanodes

ERROR: Attempting to operate on hdfs datanode as root

ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.

Starting secondary namenodes [slave1]

ERROR: Attempting to operate on hdfs secondarynamenode as root

ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.

在/usr/local/hadoop/hadoop-3.0.3/sbin路径下：

将start-dfs.sh，stop-dfs.sh两个文件顶部添加以下参数

HDFS_DATANODE_USER=root

HDFS_DATANODE_SECURE_USER=hdfs

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

还有，start-yarn.sh，stop-yarn.sh顶部也需添加以下：

YARN_RESOURCEMANAGER_USER=root

HADOOP_SECURE_DN_USER=yarn

YARN_NODEMANAGER_USER=root

修改后重启 ./start-dfs.sh，成功！

2. 采用docker搭建Hadoop集群

编写docker-compose.yml文件

vim docker-compose.yml

version: "2"

services:

namenode:

image: bde2020/hadoop-namenode:1.1.0-hadoop2.7.1-java8

container_name: namenode

volumes:

- hadoop_namenode:/hadoop/dfs/name

environment:

- CLUSTER_NAME=test

env_file:

- ./hadoop.env

ports:

- "9999:50070"

resourcemanager:

image: bde2020/hadoop-resourcemanager:1.1.0-hadoop2.7.1-java8

container_name: resourcemanager

depends_on:

- namenode

- datanode1

- datanode2

env_file:

- ./hadoop.env

ports:

- "8088:8088"

historyserver:

image: bde2020/hadoop-historyserver:1.1.0-hadoop2.7.1-java8

container_name: historyserver

depends_on:

- namenode

- datanode1

- datanode2

volumes:

- hadoop_historyserver:/hadoop/yarn/timeline

env_file:

- ./hadoop.env

ports:

- "8188:8188"

nodemanager1:

image: bde2020/hadoop-nodemanager:1.1.0-hadoop2.7.1-java8

container_name: nodemanager1

depends_on:

- namenode

- datanode1

- datanode2

env_file:

- ./hadoop.env

ports:

- "8042:8042"

datanode1:

image: bde2020/hadoop-datanode:1.1.0-hadoop2.7.1-java8

container_name: datanode1

depends_on:

- namenode

volumes:

- hadoop_datanode1:/hadoop/dfs/data

env_file:

- ./hadoop.env

datanode2:

image: bde2020/hadoop-datanode:1.1.0-hadoop2.7.1-java8

container_name: datanode2

depends_on:

- namenode

volumes:

- hadoop_datanode2:/hadoop/dfs/data

env_file:

- ./hadoop.env

datanode3:

image: bde2020/hadoop-datanode:1.1.0-hadoop2.7.1-java8

container_name: datanode3

depends_on:

- namenode

volumes:

- hadoop_datanode3:/hadoop/dfs/data

env_file:

- ./hadoop.env

volumes:

hadoop_namenode:

hadoop_datanode1:

hadoop_datanode2:

hadoop_datanode3:

hadoop_historyserver:

在当前目录新建文件：hadoop.env

加入以下配置：

CORE_CONF_fs_defaultFS=hdfs://namenode:8020

CORE_CONF_hadoop_http_staticuser_user=root

CORE_CONF_hadoop_proxyuser_hue_hosts=*

CORE_CONF_hadoop_proxyuser_hue_groups=*

HDFS_CONF_dfs_webhdfs_enabled=true

HDFS_CONF_dfs_permissions_enabled=false

YARN_CONF_yarn_log___aggregation___enable=true

YARN_CONF_yarn_resourcemanager_recovery_enabled=true

YARN_CONF_yarn_resourcemanager_store_class=org.apache.hadoop.yarn.server.resourcemanager.recovery.FileSystemRMStateStore

YARN_CONF_yarn_resourcemanager_fs_state___store_uri=/rmstate

YARN_CONF_yarn_nodemanager_remote___app___log___dir=/app-logs

YARN_CONF_yarn_log_server_url=http://historyserver:8188/applicationhistory/logs/

YARN_CONF_yarn_timeline___service_enabled=true

YARN_CONF_yarn_timeline___service_generic___application___history_enabled=true

YARN_CONF_yarn_resourcemanager_system___metrics___publisher_enabled=true

YARN_CONF_yarn_resourcemanager_hostname=resourcemanager

YARN_CONF_yarn_timeline___service_hostname=historyserver

YARN_CONF_yarn_resourcemanager_address=resourcemanager:8032

YARN_CONF_yarn_resourcemanager_scheduler_address=resourcemanager:8030

YARN_CONF_yarn_resourcemanager_resource___tracker_address=resourcemanager:8031

构建容器

docker-compose up -d

3. 如何使用hadoop集群

FS Shell

调用文件系统(FS)Shell命令应使用 bin/hadoop fs <args>的形式。所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。一个HDFS文件或目录比如/parent/child可以表示成hdfs://namenode:namenodeport/parent/child，或者更简单的/parent/child（假设你配置文件中的默认值是namenode:namenodeport）。大多数FS Shell命令的行为和对应的Unix Shell命令类似，不同之处会在下面介绍各命令使用详情时指出。出错信息会输出到stderr，其他信息输出到stdout。

cat

使用方法：hadoop fs -cat URI [URI …]

将路径指定文件的内容输出到stdout。

示例：

hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2

hadoop fs -cat file:///file3 /user/hadoop/file4

返回值：
成功返回0，失败返回-1。

chgrp

使用方法：hadoop fs -chgrp [-R] GROUP URI [URI …] Change group association of files. With -R, make the change recursively through the directory structure. The user must be the owner of files, or else a super-user. Additional information is in the Permissions User Guide. -->

改变文件所属的组。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。更多的信息请参见HDFS权限用户指南。

chmod

使用方法：hadoop fs -chmod [-R] <MODE[,MODE]... | OCTALMODE> URI [URI …]

改变文件的权限。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户。更多的信息请参见HDFS权限用户指南。

chown

使用方法：hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]

改变文件的拥有者。使用-R将使改变在目录结构下递归进行。命令的使用者必须是超级用户。更多的信息请参见HDFS权限用户指南。

copyFromLocal

使用方法：hadoop fs -copyFromLocal <localsrc> URI

除了限定源路径是一个本地文件外，和put命令相似。

copyToLocal

使用方法：hadoop fs -copyToLocal [-ignorecrc] [-crc] URI <localdst>

除了限定目标路径是一个本地文件外，和get命令类似。

cp

使用方法：hadoop fs -cp URI [URI …] <dest>

将文件从源路径复制到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录。
示例：

hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2

hadoop fs -cp /user/hadoop/file1 /user/hadoop/file2 /user/hadoop/dir

返回值：

成功返回0，失败返回-1。

du

使用方法：hadoop fs -du URI [URI …]

显示目录中所有文件的大小，或者当只指定一个文件时，显示此文件的大小。
示例：
hadoop fs -du /user/hadoop/dir1 /user/hadoop/file1 hdfs://host:port/user/hadoop/dir1
返回值：
成功返回0，失败返回-1。

dus

使用方法：hadoop fs -dus <args>

显示文件的大小。

expunge

使用方法：hadoop fs -expunge

清空回收站。请参考HDFS设计文档以获取更多关于回收站特性的信息。

get

使用方法：hadoop fs -get [-ignorecrc] [-crc] <src> <localdst>

复制文件到本地文件系统。可用-ignorecrc选项复制CRC校验失败的文件。使用-crc选项复制文件以及CRC信息。

示例：

hadoop fs -get /user/hadoop/file localfile

hadoop fs -get hdfs://host:port/user/hadoop/file localfile

返回值：

成功返回0，失败返回-1。

getmerge

使用方法：hadoop fs -getmerge <src> <localdst> [addnl]

接受一个源目录和一个目标文件作为输入，并且将源目录中所有的文件连接成本地目标文件。addnl是可选的，用于指定在每个文件结尾添加一个换行符。

ls

使用方法：hadoop fs -ls <args>

如果是文件，则按照如下格式返回文件信息：
文件名 <副本数> 文件大小修改日期修改时间权限用户ID 组ID
如果是目录，则返回它直接子文件的一个列表，就像在Unix中一样。目录返回列表的信息如下：
目录名 <dir> 修改日期修改时间权限用户ID 组ID
示例：
hadoop fs -ls /user/hadoop/file1 /user/hadoop/file2 hdfs://host:port/user/hadoop/dir1 /nonexistentfile
返回值：
成功返回0，失败返回-1。

lsr

使用方法：hadoop fs -lsr <args>
ls命令的递归版本。类似于Unix中的ls -R。

mkdir

使用方法：hadoop fs -mkdir <paths>

接受路径指定的uri作为参数，创建这些目录。其行为类似于Unix的mkdir -p，它会创建路径中的各级父目录。

示例：

hadoop fs -mkdir /user/hadoop/dir1 /user/hadoop/dir2

hadoop fs -mkdir hdfs://host1:port1/user/hadoop/dir hdfs://host2:port2/user/hadoop/dir

返回值：

成功返回0，失败返回-1。

movefromLocal

使用方法：dfs -moveFromLocal <src> <dst>

输出一个”not implemented“信息。

mv

使用方法：hadoop fs -mv URI [URI …] <dest>

将文件从源路径移动到目标路径。这个命令允许有多个源路径，此时目标路径必须是一个目录。不允许在不同的文件系统间移动文件。
示例：

hadoop fs -mv /user/hadoop/file1 /user/hadoop/file2

hadoop fs -mv hdfs://host:port/file1 hdfs://host:port/file2 hdfs://host:port/file3 hdfs://host:port/dir1

返回值：

成功返回0，失败返回-1。

put

使用方法：hadoop fs -put <localsrc> ... <dst>

从本地文件系统中复制单个或多个源路径到目标文件系统。也支持从标准输入中读取输入写入目标文件系统。

hadoop fs -put localfile /user/hadoop/hadoopfile

hadoop fs -put localfile1 localfile2 /user/hadoop/hadoopdir

hadoop fs -put localfile hdfs://host:port/hadoop/hadoopfile

hadoop fs -put - hdfs://host:port/hadoop/hadoopfile
从标准输入中读取输入。

返回值：

成功返回0，失败返回-1。

rm

使用方法：hadoop fs -rm URI [URI …]

删除指定的文件。只删除非空目录和文件。请参考rmr命令了解递归删除。
示例：

hadoop fs -rm hdfs://host:port/file /user/hadoop/emptydir

返回值：

成功返回0，失败返回-1。

rmr

使用方法：hadoop fs -rmr URI [URI …]

delete的递归版本。
示例：

hadoop fs -rmr /user/hadoop/dir

hadoop fs -rmr hdfs://host:port/user/hadoop/dir

返回值：

成功返回0，失败返回-1。

setrep

使用方法：hadoop fs -setrep [-R] <path>

改变一个文件的副本系数。-R选项用于递归改变目录下所有文件的副本系数。

示例：

hadoop fs -setrep -w 3 -R /user/hadoop/dir1

返回值：

成功返回0，失败返回-1。

stat

使用方法：hadoop fs -stat URI [URI …]

返回指定路径的统计信息。

示例：

hadoop fs -stat path

返回值：
成功返回0，失败返回-1。

tail

使用方法：hadoop fs -tail [-f] URI

将文件尾部1K字节的内容输出到stdout。支持-f选项，行为和Unix中一致。

示例：

hadoop fs -tail pathname

返回值：
成功返回0，失败返回-1。

test

使用方法：hadoop fs -test -[ezd] URI

选项：
-e 检查文件是否存在。如果存在则返回0。
-z 检查文件是否是0字节。如果是则返回0。
-d 如果路径是个目录，则返回1，否则返回0。

示例：

hadoop fs -test -e filename

text

使用方法：hadoop fs -text <src>

将源文件输出为文本格式。允许的格式是zip和TextRecordInputStream。

touchz

使用方法：hadoop fs -touchz URI [URI …]

创建一个0字节的空文件。

示例：

hadoop -touchz pathname

返回值：
成功返回0，失败返回-1。

3) spark 运维知识

1.spark的搭建

1. 搭建spark之前需要先安装hadoop

安装流程参考hadoop的搭建章节

2. 搭建Spark（master、slave相同操作,先修改master再scp同步到slave）

2.1 安装spark

cd /usr/loca/src/

tar zxvf spark-2.0.2-bin-hadoop2.7.tgz

mv spark-2.0.2-bin-hadoop2.7 /usr/local/spark-2.0.2

2.2 配置spark环境变量

vim /etc/profile

添加如下信息

######### spark ############export SPARK_HOME=/usr/local/spark-2.0.2export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

2.3 刷新配置文件：

source /etc/profile

2.4 修改spark配置文件

cd /usr/local/spark-2.0.2/conf

mv spark-env.sh.template spark-env.sh

[root@spark-master conf]# ll

总用量 36-rw-r--r--. 1 500 500 987 11月 8 09:58 docker.properties.template-rw-r--r--. 1 500 500 1105 11月 8 09:58 fairscheduler.xml.template-rw-r--r--. 1 500 500 2025 11月 8 09:58 log4j.properties.template-rw-r--r--. 1 500 500 7239 11月 8 09:58 metrics.properties.template-rw-r--r--. 1 500 500 912 12月 21 16:55 slaves-rw-r--r--. 1 500 500 1292 11月 8 09:58 spark-defaults.conf.template-rwxr-xr-x. 1 root root 3969 12月 21 15:50 spark-env.sh-rwxr-xr-x. 1 500 500 3861 11月 8 09:58 spark-env.sh.template

2.4.1 spark关联jdk

vim spark-env.sh

#!/usr/bin/env bash

# Licensed to the Apache Software Foundation (ASF) under one or more

# contributor license agreements. See the NOTICE file distributed with

# this work for additional information regarding copyright ownership.

# The ASF licenses this file to You under the Apache License, Version 2.0

# (the "License"); you may not use this file except in compliance with

# the License. You may obtain a copy of the License at

# http://www.apache.org/licenses/LICENSE-2.0

# Unless required by applicable law or agreed to in writing, software

# distributed under the License is distributed on an "AS IS" BASIS,

# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

# See the License for the specific language governing permissions and

# limitations under the License.

# This file is sourced when running various Spark programs.

# Copy it as spark-env.sh and edit that to configure Spark for your site.

# Options read when launching programs locally with

# ./bin/run-example or ./bin/spark-submit

# - HADOOP_CONF_DIR, to point Spark towards Hadoop configuration files

# - SPARK_LOCAL_IP, to set the IP address Spark binds to on this node

# - SPARK_PUBLIC_DNS, to set the public dns name of the driver program

# - SPARK_CLASSPATH, default classpath entries to append

# Options read by executors and drivers running inside the cluster

# - SPARK_LOCAL_IP, to set the IP address Spark binds to on this node

# - SPARK_PUBLIC_DNS, to set the public DNS name of the driver program

# - SPARK_CLASSPATH, default classpath entries to append

# - SPARK_LOCAL_DIRS, storage directories to use on this node for shuffle and RDD data

# - MESOS_NATIVE_JAVA_LIBRARY, to point to your libmesos.so if you use Mesos

# Options read in YARN client mode

# - HADOOP_CONF_DIR, to point Spark towards Hadoop configuration files

# - SPARK_EXECUTOR_INSTANCES, Number of executors to start (Default: 2)

# - SPARK_EXECUTOR_CORES, Number of cores for the executors (Default: 1).

# - SPARK_EXECUTOR_MEMORY, Memory per Executor (e.g. 1000M, 2G) (Default: 1G)

# - SPARK_DRIVER_MEMORY, Memory for Driver (e.g. 1000M, 2G) (Default: 1G)

# Options for the daemons used in the standalone deploy mode

# - SPARK_MASTER_HOST, to bind the master to a different IP address or hostname

# - SPARK_MASTER_PORT / SPARK_MASTER_WEBUI_PORT, to use non-default ports for the master

# - SPARK_MASTER_OPTS, to set config properties only for the master (e.g. "-Dx=y")

# - SPARK_WORKER_CORES, to set the number of cores to use on this machine

# - SPARK_WORKER_MEMORY, to set how much total memory workers have to give executors (e.g. 1000m, 2g)

# - SPARK_WORKER_PORT / SPARK_WORKER_WEBUI_PORT, to use non-default ports for the worker

# - SPARK_WORKER_INSTANCES, to set the number of worker processes per node

# - SPARK_WORKER_DIR, to set the working directory of worker processes

# - SPARK_WORKER_OPTS, to set config properties only for the worker (e.g. "-Dx=y")

# - SPARK_DAEMON_MEMORY, to allocate to the master, worker and history server themselves (default: 1g).

# - SPARK_HISTORY_OPTS, to set config properties only for the history server (e.g. "-Dx=y")

# - SPARK_SHUFFLE_OPTS, to set config properties only for the external shuffle service (e.g. "-Dx=y")

# - SPARK_DAEMON_JAVA_OPTS, to set config properties for all daemons (e.g. "-Dx=y")

# - SPARK_PUBLIC_DNS, to set the public dns name of the master or workers

# Generic options for the daemons used in the standalone deploy mode

# - SPARK_CONF_DIR Alternate conf dir. (Default: ${SPARK_HOME}/conf)

# - SPARK_LOG_DIR Where log files are stored. (Default: ${SPARK_HOME}/logs)

# - SPARK_PID_DIR Where the pid file is stored. (Default: /tmp)

# - SPARK_IDENT_STRING A string representing this instance of spark. (Default: $USER)

# - SPARK_NICENESS The scheduling priority for daemons. (Default: 0)

#java的环境变量export JAVA_HOME=/usr/local/jdk1.8.0_111

#spark主节点的ipexport SPARK_MASTER_IP=172.16.200.81

#spark主节点的端口号export SPARK_MASTER_PORT=7077

2.4.2 配置slaves

vim slaves

## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements. See the NOTICE file distributed with# this work for additional information regarding copyright ownership.# The ASF licenses this file to You under the Apache License, Version 2.0# (the "License"); you may not use this file except in compliance with# the License. You may obtain a copy of the License at## http://www.apache.org/licenses/LICENSE-2.0## Unless required by applicable law or agreed to in writing, software# distributed under the License is distributed on an "AS IS" BASIS,# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.# See the License for the specific language governing permissions and# limitations under the License.#

# A Spark Worker will be started on each of the machines listed below.

172.16.200.81

172.16.200.82

172.16.200.83

172.16.200.84

3. 安装scala

cd /usr/loca/src/

tar zxvf scala-2.12.1.tgz

mv scala-2.12.1 /usr/local

3.1 配置scala环境变量（只master安装）

vim /etc/profile

添加如下信息

######### scala ##########export SCALA_HOME=/usr/local/scala-2.12.1export PATH=$PATH:$SCALA_HOME/bin

3.2 刷新配置文件：

source /etc/profile

3.3 将对应修改的spark目录拷贝到slave节点

scp -r spark-2.4.4-bin-hadoop2.7 [email protected]:/root/spark

4. 启动程序

4.1 启动hadoop

4.1.1 格式化namenode

hadoop namenode -format

4.1.2 master启动hadoop

cd /usr/local/hadoop-2.7.3/sbin

./start-all.sh

提示

start-all.sh //启动master和slavesstop-all.sh //停止master和slaves

查看进程（master）

[root@spark-master sbin]# jps8961 NodeManager8327 DataNode8503 SecondaryNameNode8187 NameNode8670 ResourceManager9102 Jps

[root@spark-master sbin]#

查看进程（slave）

[root@spark-slave01 ~]# jps4289 NodeManager4439 Jps4175 DataNode

[root@spark-slave01 ~]#

slave01、slve02、slave03显示相同

4.2 启动spark

4.1.2 master启动spark

cd /usr/local/spark-2.0.2/sbin

./start-all.sh

提示

start-all.sh //启动master和slavesstop-all.sh //停止master和slaves

1) hive运维知识

2) Hadoop 运维知识

1. centos上搭建Hadoop集群

1.首先创建好一个CentOS虚拟机，将它作为主节点我这里起名为master，起什么都行，不固定要求

2.VMware中打开虚拟机，输入java -version，检查是否有JDK环境，不要用系统自带的openJDK版本，要自己安装的版本

3.输入 firewall-cmd --state，若防火墙处于running状态，则关闭防火墙

4.输入mkdir /usr/local/hadoop 创建一个hadoop文件夹

5.将hadoop-3.0.3.tar.gz放到刚创建好的hadoop文件夹中

6.进入hadoop目录，输入tar -xvf hadoop-3.0.3.tar.gz 解压tar包

7.输入 vi /etc/profile，配置环境变量。加入如如下内容

8. 输入 souce /etc/profile ，使环境变量改动生效

9.任意目录输入hado，然后按Tab，如果自动补全为hadoop,则说明环境变量配的没问题，否则检查环境变量哪出错了

10.创建3个之后要用到的文件夹，分别如下：

11.进入hadoop-3.0.3解压后的 /etc/hadoop 目录，里面存放的是hadoop的配置文件，接下来要修改里面一些配置文件

12. 有两个 .sh 文件，需要指定一下java的目录，首先输入 vi hadoop-env.sh 修改配置文件

13. 输入 vi yarn-env.sh 修改配置文件

14. 输入 vi core-site.xml 修改配置文件

15. 输入 vi hdfs-site.xml 修改配置文件

16. 输入 vi mapred-site.xml 修改配置文件

17. vi yarn-site.xml 修改配置文件

18. 输入 vi workers 修改配置文件（老版本是slaves文件，3.0.3 用 workers 文件代替 slaves 文件）

19. 将虚拟机关闭，再复制两份虚拟机，重命名为node1,node2，注意这里一定要关闭虚拟机，再复制

20. 将3台虚拟机都打开，后两台复制的虚拟机打开时，都选择“我已复制该虚拟机”

21. 在master机器上，输入vi /etc/hostname，将localhost改为master，保存并退出

22. 在node1机器上，输入 vi /etc/hostname，将localhost改为node1，保存并退出

23. 在node2机器上，输入 vi /etc/hostname，将localhost改为node2，保存并退出

24. 在三台机器分别输入 vi /etc/hosts 修改文件，其作用是将一些常用的网址域名与其对应的IP地址建立一个关联，当用户在访问网址时，系统会首先自动从Hosts文件中寻找对应的IP地址

25. 配置三台机器间的免密登录ssh (搭hadoop必须要配免密登录)

26. 如果node节点还没有hadoop，则master机器上分别输入如下命令将hadoop复制

27. 在master机器上，任意目录输入 hdfs namenode -format 格式化namenode，第一次使用需格式化一次，之后就不用再格式化，如果改一些配置文件了，可能还需要再次格式化

28. 在master机器上，进入hadoop的sbin目录，输入 ./start-all.sh 启动hadoop（若只配了hdfs，则可以 输入 ./start-dfs.sh 启动hdfs）

29. 输入jps查看当前java的进程，

30. 在node1机器和node2机器上分别输入 jps 查看进程如下，说明配置成功

31. 在浏览器访问nameNode节点的8088端口和50070端口可以查看hadoop的运行状况

32. 在master机器上，进入hadoop的sbin目录，输入 ./stop-all.sh 关闭hadoop 或 输入 ./stop-dfs.sh 关闭dfs

2. 采用docker搭建Hadoop集群

编写docker-compose.yml文件

在当前目录新建文件：hadoop.env

构建容器

3. 如何使用hadoop集群

cat

chgrp

chmod

chown

copyFromLocal

copyToLocal

cp

du

dus

expunge

get

getmerge

ls

lsr

mkdir

movefromLocal

mv

put

rm

rmr

setrep

stat

tail

test

text

3) spark 运维知识

1.spark的搭建

1. 搭建spark之前需要先安装hadoop

2. 搭建Spark（master、slave相同操作,先修改master再scp同步到slave）

2.1 安装spark

2.2 配置spark环境变量

2.3 刷新配置文件：

2.4 修改spark配置文件

3. 安装scala

3.1 配置scala环境变量（只master安装）

3.2 刷新配置文件：

3.3 将对应修改的spark目录拷贝到slave节点

4. 启动程序

4.1 启动hadoop

28. 在master机器上，进入hadoop的sbin目录，输入 ./start-all.sh 启动hadoop（若只配了hdfs，则可以输入 ./start-dfs.sh 启动hdfs）

32. 在master机器上，进入hadoop的sbin目录，输入 ./stop-all.sh 关闭hadoop 或输入 ./stop-dfs.sh 关闭dfs