一、安装环境
操作系统:Red Hat Enterprise Linux 6 64 位(版本号6.6)
JDK版本:1.8
工具:Xshell5、Xftp5
说明:本文是通过Xshell5工具远程连接Linux操作,如果是直接在Linux可视化界面操作那就更方便了,原理一样。
二、安装步骤
第一步:下载安装包
下载Linux环境下的jdk1.8,请去(官网)中下载jdk的安装文件;
由于我的Linux是64位的,因此我下载jdk-8u131-linux-x64.tar.gz。
如下图所示:
如果Linux本身连接到互联网,我们可以直接通过wget命令直接把JDK安装包下载下来,如图所示:
要是没有外网的环境,还是安装上面的方法下载安装包,然后上传到服务器当中
第二步、解压安装包
将我们下载好的JDK安装包上传到服务器,解压命令进行解压
1 $ cd /home/cmfchina 2 $ tar -zxvf jdk-8u131-linux-x64.tar.gz
解压完成之后,可以在当前目录下看到一个名字为【jdk1.8.0_131】的目录,里面存放的是相关文件
我们要将解压后的【jdk1.8.0_131】里面的所有数据移动到我们需要安装的文件夹当中,我们打算将jdk安装在usr/java当中,我们在usr目录下新建一个java文件夹
mkdir /usr/java
将【jdk1.8.0_131】里的数据拷贝至java目录下
mv /home/cmfchina/jdk1.8.0_131 /usr/java
第三步、修改环境变量
至此,我们最后需要修改环境变量,通过命令
vim /etc/profile
用vim编辑器来编辑profile文件,在文件末尾添加一下内容(按“i”进入编辑):
export JAVA_HOME=/usr/java/jdk1.8.0_131
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:$CLASSPATH
export JAVA_PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin
export PATH=$PATH:${JAVA_PATH}
如图所示:
然后,保存并退出(按 :wq! )
保存完之后,我们还需要让这个环境变量配置信息里面生效,要不然只能重启电脑生效了。
通过命令 source /etc/profile 让profile文件立即生效,如图所示
第四步、测试是否安装成功
①、使用javac命令,不会出现command not found错误
②、使用java -version,出现版本为java version "1.8.0_131"
③、echo $PATH,看看自己刚刚设置的的环境变量配置是否都正确
如图所示:
至此,安装结束
参考:http://www.cnblogs.com/xuliangxing/p/7066913.html
https://blog.csdn.net/SecondLieutenant/article/details/80505339
下载Hadoop安装文件,这里下载的是2.7.3版本
- wget http://apache.fayea.com/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
先解压文件:tar -xzvf hadoop-2.7.3.tar.gz
mv移动到建立的文件夹,然后 vim /etc/profile ,按 i 进行编辑。将如下配置到环境变量。
- export HADOOP_HOME=/usr/java/hadoop-2.7.3
- export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH
- export HADOOP_MAPRED_HOME=${HADOOP_HOME}
- export HADOOP_COMMON_HOME=${HADOOP_HOME}
- export HADOOP_HDFS_HOME=${HADOOP_HOME}
- export YARN_HOME=${HADOOP_HOME}
然后, 按 ESC 确认编辑完成,再 :wq! 保存退出。
运行使其生效:source /etc/profile查看$HADOOP_HOME/etc/hadoop/hadoop-env.sh文件中,有关于$JAVA_HOME的正确定义。如果SSH服务不是监听在22端口的话,添加如下行:export HADOOP_SSH_OPTS="-p 18921"。
编辑$HADOOP_HOME/etc/hadoop/core-site.xml文件,加入如下内容:
- <configuration>
- <property>
- <name>fs.defaultFS</name>
- <value>hdfs://your_server_ip:9000</value>
- </property>
- </configuration>
编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件:
- <configuration>
- <property>
- <name>dfs.replication</name>
- <value>1</value>
- </property>
- </configuration>
确保可以不用密码登录:ssh -p 22000 localhost,这里我的SSH服务启动在22000端口,而不是默认的22端口。如果不能登录,则运行如下脚本:
- $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
- $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
- $ chmod 0600 ~/.ssh/authorized_keys
下面我们进入到$HADOOP_HOME目录:
- bin/hdfs namenode -format
- sbin/start-dfs.sh
我们通过浏览器访问:http://your_server_ip:50070可以看到HDFS namenode的管理界面,就证明这一步已经安装成功了。
下面建立MapReduce的工作目录,即创建HDFS上的目录:
- bin/hdfs dfs -mkdir /user
- bin/hdfs dfs -mkdir /user/yantao
- # 将文本文件拷贝到HDFS系统中
- bin/hdfs dfs -mkdir /user/yantao/input
- bin/hdfs dfs -put etc/hadoop/*.xml /user/yantao/input
- # 运行实例
- bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep /user/yantao/input /user/yantao/output 'dfs[a-z. ]+'
- # 将结果文件取回本地
- bin/hdfs dfs -get /user/yantao/output output
- # 直接在HDFS中查看
- bin/hdfs dfs -cat /user/yantao/output/*
下面我们来配置YARN集群。我们首先配置MapReduce,编辑vim etc/hadoop/mapred-site.xml,内容如下:
- <configuration>
- <property>
- <name>mapreduce.framework.name</name>
- <value>yarn</value>
- </property>
- </configuration>
编辑vim etc/hadoop/yarn-site.xml,添加或修改如下内容:
- <configuration>
- <property>
- <name>yarn.nodemanager.aux-services</name>
- <value>mapreduce_shuffle</value>
- </property>
- <property>
- <name>yarn.nodemanager.env-whitelist</name>
- <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
- </property>
- </configuration>
并将文件中所有Mater:修改为本机IP地址。
完成上述操作后,我们可以启动yarn:sbin/start-yarn.sh
此时访问nodemanager界面:http://your_server_ip:8042
访问resourcemanager界面:http://your_server_ip:8088
至此我们就完成了Hadoop伪分布式模式的安装。下面就可以正式进入Spark的安装了。
首先下载Spark安装文件,由于我们之前安装的是hadoop 2.7.3,所以我们需要下载绑定hadoop 2.7以上版本的Spark:
wget http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz
然后解压:tar -xzvf spark-2.1.0-bin-hadoop2.7.tgz
进入spark目录,拷贝Spark环境模板文件为环境文件:cp conf/spark-env.sh.template conf/spark-env.sh,然后添加如下内容:
- export SCALA_HOME=/root/dev/java/scala-2.12.1
- export SPARK_WORKER_MEMORY=1g
- export SPARK_MASTER_IP=your_server_ip
- export MASTER=spark://your_server_ip:7077
- # 如果SSH端口不是缺省的22时加入下面行
- export SPARK_SSH_OPTS="-p 22000"
生成Slave文件:cp conf/slaves.template conf/slaves。在这个文件中加入Worker节点的名称,由于这里是伪分布式部署,所以只需要有localhost就可以了。
我们进入到$HADOOP_HOME目录,启动HADOOP:
- ./sbin/start-dfs.sh
- ./sbin/start-yarn.sh
然后进入$SPARK_HOME目录,启动Spark:./sbin/start-all.sh
至此Spark 2.1.0就已经完全安装完成了。我们可以试验一下安装是否正确,进入到$SPARK_HOME目录,运行求PI的实例:
- ./bin/run-example org.apache.spark.examples.SparkPi
我们还可以尝试启动Spark-shell:
./bin/spark-shell
如果出现如下图所示界面,则证明是成功的:
我们可以通过:quit业退出这个界面。