一、安装环境

操作系统：Red Hat Enterprise Linux 6 64 位(版本号6.6)

JDK版本：1.8

工具：Xshell5、Xftp5

说明：本文是通过Xshell5工具远程连接Linux操作，如果是直接在Linux可视化界面操作那就更方便了，原理一样。

二、安装步骤

第一步：下载安装包

下载Linux环境下的jdk1.8，请去（官网）中下载jdk的安装文件；

由于我的Linux是64位的，因此我下载jdk-8u131-linux-x64.tar.gz。

如下图所示：

如果Linux本身连接到互联网，我们可以直接通过wget命令直接把JDK安装包下载下来，如图所示：

要是没有外网的环境，还是安装上面的方法下载安装包，然后上传到服务器当中

第二步、解压安装包

将我们下载好的JDK安装包上传到服务器，解压命令进行解压

1 $ cd  /home/cmfchina
2 $ tar  -zxvf  jdk-8u131-linux-x64.tar.gz

解压完成之后，可以在当前目录下看到一个名字为【jdk1.8.0_131】的目录，里面存放的是相关文件

我们要将解压后的【jdk1.8.0_131】里面的所有数据移动到我们需要安装的文件夹当中，我们打算将jdk安装在usr/java当中，我们在usr目录下新建一个java文件夹

mkdir /usr/java

将【jdk1.8.0_131】里的数据拷贝至java目录下

mv /home/cmfchina/jdk1.8.0_131 /usr/java

第三步、修改环境变量

至此，我们最后需要修改环境变量，通过命令

vim /etc/profile

用vim编辑器来编辑profile文件，在文件末尾添加一下内容（按“i”进入编辑）：

export JAVA_HOME=/usr/java/jdk1.8.0_131
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:$CLASSPATH
export JAVA_PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin
export PATH=$PATH:${JAVA_PATH}

如图所示：

然后，保存并退出(按 :wq! )

保存完之后，我们还需要让这个环境变量配置信息里面生效，要不然只能重启电脑生效了。

通过命令 source /etc/profile 让profile文件立即生效，如图所示

第四步、测试是否安装成功

①、使用javac命令，不会出现command not found错误

②、使用java -version，出现版本为java version "1.8.0_131"

③、echo $PATH，看看自己刚刚设置的的环境变量配置是否都正确

如图所示：

至此，安装结束

参考：http://www.cnblogs.com/xuliangxing/p/7066913.html

https://blog.csdn.net/SecondLieutenant/article/details/80505339

下载Hadoop安装文件，这里下载的是2.7.3版本

 
  wget http://apache.fayea.com/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

先解压文件：tar -xzvf hadoop-2.7.3.tar.gz

mv移动到建立的文件夹，然后 vim /etc/profile ，按 i 进行编辑。将如下配置到环境变量。

export HADOOP_HOME=/usr/java/hadoop-2.7.3
export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH
export HADOOP_MAPRED_HOME=${HADOOP_HOME}
export HADOOP_COMMON_HOME=${HADOOP_HOME}
export HADOOP_HDFS_HOME=${HADOOP_HOME}
export YARN_HOME=${HADOOP_HOME}

然后，按 ESC 确认编辑完成，再 :wq! 保存退出。

运行使其生效：source /etc/profile

查看$HADOOP_HOME/etc/hadoop/hadoop-env.sh文件中，有关于$JAVA_HOME的正确定义。如果SSH服务不是监听在22端口的话，添加如下行：export HADOOP_SSH_OPTS="-p 18921"。

编辑$HADOOP_HOME/etc/hadoop/core-site.xml文件，加入如下内容：

 
  <configuration>  
  <property>  
    <name>fs.defaultFS</name>  
    <value>hdfs://your_server_ip:9000</value>  
  </property>  
</configuration>  
 
 

编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件：

 
  <configuration>  
  <property>  
    <name>dfs.replication</name>  
    <value>1</value>  
  </property>  
</configuration>  
 
 

确保可以不用密码登录：ssh -p 22000 localhost，这里我的SSH服务启动在22000端口，而不是默认的22端口。如果不能登录，则运行如下脚本：

 
  $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa  
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys  
$ chmod 0600 ~/.ssh/authorized_keys

下面我们进入到$HADOOP_HOME目录：

 
  bin/hdfs namenode -format  
sbin/start-dfs.sh

我们通过浏览器访问：http://your_server_ip:50070可以看到HDFS namenode的管理界面，就证明这一步已经安装成功了。

下面建立MapReduce的工作目录，即创建HDFS上的目录：

 
  bin/hdfs dfs -mkdir /user  
bin/hdfs dfs -mkdir /user/yantao  
# 将文本文件拷贝到HDFS系统中  
bin/hdfs dfs -mkdir /user/yantao/input  
bin/hdfs dfs -put etc/hadoop/*.xml /user/yantao/input  
# 运行实例  
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep /user/yantao/input /user/yantao/output 'dfs[a-z. ]+'  
# 将结果文件取回本地  
bin/hdfs dfs -get /user/yantao/output output  
# 直接在HDFS中查看  
bin/hdfs dfs -cat /user/yantao/output/*  
 
 

下面我们来配置YARN集群。我们首先配置MapReduce，编辑vim etc/hadoop/mapred-site.xml，内容如下：

 
  <configuration>  
    <property>  
        <name>mapreduce.framework.name</name>  
        <value>yarn</value>  
    </property>  
</configuration>  
 
 

编辑vim etc/hadoop/yarn-site.xml，添加或修改如下内容：

 
  <configuration>  
    <property>  
        <name>yarn.nodemanager.aux-services</name>  
        <value>mapreduce_shuffle</value>  
    </property>  
    <property>  
        <name>yarn.nodemanager.env-whitelist</name>  
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>  
    </property>  
</configuration>  
 
 

并将文件中所有Mater:修改为本机IP地址。

完成上述操作后，我们可以启动yarn：sbin/start-yarn.sh

此时访问nodemanager界面：http://your_server_ip:8042

访问resourcemanager界面：http://your_server_ip:8088

至此我们就完成了Hadoop伪分布式模式的安装。下面就可以正式进入Spark的安装了。

首先下载Spark安装文件，由于我们之前安装的是hadoop 2.7.3，所以我们需要下载绑定hadoop 2.7以上版本的Spark：

wget http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz

然后解压：tar -xzvf spark-2.1.0-bin-hadoop2.7.tgz

进入spark目录，拷贝Spark环境模板文件为环境文件：cp conf/spark-env.sh.template conf/spark-env.sh，然后添加如下内容：

 
  export SCALA_HOME=/root/dev/java/scala-2.12.1  
export SPARK_WORKER_MEMORY=1g  
export SPARK_MASTER_IP=your_server_ip  
export MASTER=spark://your_server_ip:7077  
# 如果SSH端口不是缺省的22时加入下面行  
export SPARK_SSH_OPTS="-p 22000"  
 
 

生成Slave文件：cp conf/slaves.template conf/slaves。在这个文件中加入Worker节点的名称，由于这里是伪分布式部署，所以只需要有localhost就可以了。

我们进入到$HADOOP_HOME目录，启动HADOOP：

./sbin/start-dfs.sh
./sbin/start-yarn.sh

然后进入$SPARK_HOME目录，启动Spark：./sbin/start-all.sh

至此Spark 2.1.0就已经完全安装完成了。我们可以试验一下安装是否正确，进入到$SPARK_HOME目录，运行求PI的实例：

./bin/run-example org.apache.spark.examples.SparkPi

如果在输出中可以获得类似如下结果，就可以证明是正确的了：

我们还可以尝试启动Spark-shell：

./bin/spark-shell

如果出现如下图所示界面，则证明是成功的：

我们可以通过:quit业退出这个界面。

参考：https://blog.csdn.net/yt7589/article/details/62039555

linux 安装 jdk ，hadoop ，spark

二、安装步骤

猜你喜欢