linux 安装 jdk ,hadoop ,spark

一、安装环境

操作系统:Red Hat Enterprise Linux 6 64 位(版本号6.6)

JDK版本:1.8

工具:Xshell5、Xftp5

说明:本文是通过Xshell5工具远程连接Linux操作,如果是直接在Linux可视化界面操作那就更方便了,原理一样。

二、安装步骤

第一步:下载安装包

下载Linux环境下的jdk1.8,请去(官网)中下载jdk的安装文件;

由于我的Linux是64位的,因此我下载jdk-8u131-linux-x64.tar.gz

如下图所示:


如果Linux本身连接到互联网,我们可以直接通过wget命令直接把JDK安装包下载下来,如图所示:

要是没有外网的环境,还是安装上面的方法下载安装包,然后上传到服务器当中

第二步、解压安装包

将我们下载好的JDK安装包上传到服务器,解压命令进行解压

1 $ cd  /home/cmfchina
2 $ tar  -zxvf  jdk-8u131-linux-x64.tar.gz

解压完成之后,可以在当前目录下看到一个名字为【jdk1.8.0_131】的目录,里面存放的是相关文件

我们要将解压后的【jdk1.8.0_131】里面的所有数据移动到我们需要安装的文件夹当中,我们打算将jdk安装在usr/java当中,我们在usr目录下新建一个java文件夹

mkdir /usr/java

将【jdk1.8.0_131】里的数据拷贝至java目录下

mv /home/cmfchina/jdk1.8.0_131 /usr/java

第三步、修改环境变量

至此,我们最后需要修改环境变量,通过命令

vim /etc/profile

用vim编辑器来编辑profile文件,在文件末尾添加一下内容(按“i”进入编辑):

export JAVA_HOME=/usr/java/jdk1.8.0_131
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib:$CLASSPATH
export JAVA_PATH=${JAVA_HOME}/bin:${JRE_HOME}/bin
export PATH=$PATH:${JAVA_PATH}

如图所示:

然后,保存并退出(按  :wq! )

保存完之后,我们还需要让这个环境变量配置信息里面生效,要不然只能重启电脑生效了。

通过命令 source /etc/profile 让profile文件立即生效,如图所示

第四步、测试是否安装成功

①、使用javac命令,不会出现command not found错误

②、使用java -version,出现版本为java version "1.8.0_131"

③、echo $PATH,看看自己刚刚设置的的环境变量配置是否都正确

如图所示:

至此,安装结束

参考:http://www.cnblogs.com/xuliangxing/p/7066913.html

https://blog.csdn.net/SecondLieutenant/article/details/80505339

下载Hadoop安装文件,这里下载的是2.7.3版本

  1. wget http://apache.fayea.com/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz  

先解压文件:tar -xzvf hadoop-2.7.3.tar.gz

mv移动到建立的文件夹,然后 vim /etc/profile ,按 i 进行编辑。将如下配置到环境变量。

  1. export HADOOP_HOME=/usr/java/hadoop-2.7.3  
  2. export PATH=${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH  
  3. export HADOOP_MAPRED_HOME=${HADOOP_HOME}  
  4. export HADOOP_COMMON_HOME=${HADOOP_HOME}  
  5. export HADOOP_HDFS_HOME=${HADOOP_HOME}  
  6. export YARN_HOME=${HADOOP_HOME}  

然后, 按 ESC 确认编辑完成,再  :wq! 保存退出。

运行使其生效:source  /etc/profile

查看$HADOOP_HOME/etc/hadoop/hadoop-env.sh文件中,有关于$JAVA_HOME的正确定义。如果SSH服务不是监听在22端口的话,添加如下行:export HADOOP_SSH_OPTS="-p 18921"。

编辑$HADOOP_HOME/etc/hadoop/core-site.xml文件,加入如下内容:

  1. <configuration>  
  2.   <property>  
  3.     <name>fs.defaultFS</name>  
  4.     <value>hdfs://your_server_ip:9000</value>  
  5.   </property>  
  6. </configuration>  

编辑$HADOOP_HOME/etc/hadoop/hdfs-site.xml文件:
  1. <configuration>  
  2.   <property>  
  3.     <name>dfs.replication</name>  
  4.     <value>1</value>  
  5.   </property>  
  6. </configuration>  

确保可以不用密码登录:ssh -p 22000 localhost,这里我的SSH服务启动在22000端口,而不是默认的22端口。如果不能登录,则运行如下脚本:
  1. $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa  
  2. $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys  
  3. $ chmod 0600 ~/.ssh/authorized_keys  

下面我们进入到$HADOOP_HOME目录:
  1. bin/hdfs namenode -format  
  2. sbin/start-dfs.sh  

我们通过浏览器访问:http://your_server_ip:50070可以看到HDFS namenode的管理界面,就证明这一步已经安装成功了。

下面建立MapReduce的工作目录,即创建HDFS上的目录:

  1. bin/hdfs dfs -mkdir /user  
  2. bin/hdfs dfs -mkdir /user/yantao  
  3. # 将文本文件拷贝到HDFS系统中  
  4. bin/hdfs dfs -mkdir /user/yantao/input  
  5. bin/hdfs dfs -put etc/hadoop/*.xml /user/yantao/input  
  6. # 运行实例  
  7. bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep /user/yantao/input /user/yantao/output 'dfs[a-z. ]+'  
  8. # 将结果文件取回本地  
  9. bin/hdfs dfs -get /user/yantao/output output  
  10. # 直接在HDFS中查看  
  11. bin/hdfs dfs -cat /user/yantao/output/*  

下面我们来配置YARN集群。我们首先配置MapReduce,编辑vim etc/hadoop/mapred-site.xml,内容如下:
  1. <configuration>  
  2.     <property>  
  3.         <name>mapreduce.framework.name</name>  
  4.         <value>yarn</value>  
  5.     </property>  
  6. </configuration>  

编辑vim etc/hadoop/yarn-site.xml,添加或修改如下内容:
  1. <configuration>  
  2.     <property>  
  3.         <name>yarn.nodemanager.aux-services</name>  
  4.         <value>mapreduce_shuffle</value>  
  5.     </property>  
  6.     <property>  
  7.         <name>yarn.nodemanager.env-whitelist</name>  
  8.         <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>  
  9.     </property>  
  10. </configuration>  

并将文件中所有Mater:修改为本机IP地址。


完成上述操作后,我们可以启动yarn:sbin/start-yarn.sh

此时访问nodemanager界面:http://your_server_ip:8042

访问resourcemanager界面:http://your_server_ip:8088

至此我们就完成了Hadoop伪分布式模式的安装。下面就可以正式进入Spark的安装了。

首先下载Spark安装文件,由于我们之前安装的是hadoop 2.7.3,所以我们需要下载绑定hadoop 2.7以上版本的Spark:

wget http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz

然后解压:tar -xzvf spark-2.1.0-bin-hadoop2.7.tgz

进入spark目录,拷贝Spark环境模板文件为环境文件:cp conf/spark-env.sh.template conf/spark-env.sh,然后添加如下内容:

  1. export SCALA_HOME=/root/dev/java/scala-2.12.1  
  2. export SPARK_WORKER_MEMORY=1g  
  3. export SPARK_MASTER_IP=your_server_ip  
  4. export MASTER=spark://your_server_ip:7077  
  5. # 如果SSH端口不是缺省的22时加入下面行  
  6. export SPARK_SSH_OPTS="-p 22000"  

生成Slave文件:cp conf/slaves.template conf/slaves。在这个文件中加入Worker节点的名称,由于这里是伪分布式部署,所以只需要有localhost就可以了。

我们进入到$HADOOP_HOME目录,启动HADOOP:

  1. ./sbin/start-dfs.sh  
  2. ./sbin/start-yarn.sh  

然后进入$SPARK_HOME目录,启动Spark:./sbin/start-all.sh

至此Spark 2.1.0就已经完全安装完成了。我们可以试验一下安装是否正确,进入到$SPARK_HOME目录,运行求PI的实例:

  1. ./bin/run-example org.apache.spark.examples.SparkPi  
如果在输出中可以获得类似如下结果,就可以证明是正确的了:


我们还可以尝试启动Spark-shell:

./bin/spark-shell

如果出现如下图所示界面,则证明是成功的:


我们可以通过:quit业退出这个界面。


参考:https://blog.csdn.net/yt7589/article/details/62039555

猜你喜欢

转载自blog.csdn.net/secondlieutenant/article/details/80505339