本地windows搭建spark环境,安装与详细配置(jdk安装与配置,scala安装与配置,hadoop安装与配置,spark安装与配置)

本地搭建spark环境,安装与详细配置

安装包下载地址:

JDK: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

Hadoop2.6.5:http://archive.apache.org/dist/hadoop/common/hadoop-2.6.5/

Scala2.11.8:https://www.scala-lang.org/download/all.html

Spark2.2.0:http://archive.apache.org/dist/spark/spark-2.2.0/

  1. jdk安装与配置

    点开jdk安装下载地址,下载windows版本即可,进行安装。安装后将安装路径添加至环境变量中,具体操作如下图。

在这里插入图片描述

安装测试

java -version

出现如下图代表安装成功。

在这里插入图片描述

其他环境变量设置:

PATH:C:\Program Files\Java\jdk1.8.0_191\bin;
CLASS_PATH :C:\Program Files\Java\jdk1.8.0_191\lib\dt.jar;C:\Program Files\Java\jdk1.8.0_191\lib\tools.jar;
JAVA_HOME :C:\Program Files\Java\jdk1.8.0_191  #这里后面不能有任何一个符号,我找错找了一下午,重装了 这几个包 又重新配置环境变量 真的是心累!!!!! hadoop会一直报JAVA_HOME不正确
JRE_HOME :C:\Program Files\Java\jdk1.8.0_191\jre
  1. scala安装与配置

点开scala安装下载地址,下载windows版本即可,进行解压,将他放到 你自己的文件路径下。

环境变量设置

PATH : C:\Program Files\scala-2.12.0\bin;
SCALA_HOME :C:\Program Files\scala-2.12.0

安装测试:

在这里插入图片描述

  1. hadoop安装与配置

点开spark安装下载地址,下载需要版本即可,进行解压,将他放到 你自己的文件路径下。

环境变量设置

HADOOP_PATH:C:\Program Files\hadoop-2.7.6  
PATH:C:\Program Files\hadoop-2.7.6\bin;

安装测试

在这里插入图片描述

  1. spark安装与配置

点开spark安装下载地址,下载需要版本即可,进行解压,将他放到 你自己的文件路径下。

环境变量设置

SPARK_HOME:C:\Program Files\spark-2.4.0-bin-hadoop2.7
PATH:C:\Program Files\spark-2.4.0-bin-hadoop2.7\bin;

安装测试

在这里插入图片描述

千万注意环境变量中的逗号 要不要打 这个错找了一天!!!!!
这里报错了,根据报错显示:我们去下载相应文件。
那么请找到你的hadoop\bin目录找下里面有没有winutils.exe文件,如果没有的话,我们需要去下载。

下载地址为:https://github.com/steveloughran/winutils

将下载的文件放入到你的hadoop安装路径下的bin下即可,重新运行

在这里插入图片描述
这里又报异常,我们还需要一个文件,hadoop.dll文件,就在前面的地址里,跟winutils 在同一目录下,下载相应版本的hadoop.dll.
再重新运行:
在这里插入图片描述
在你运行pyspark时。没有任何错误 ,可是当你输入脚本运行的时候,就会报异常。如下所示:
在这里插入图片描述
这是因为pyspark的版本过高的问题,我们可以再去网站上重新下一个2.2或者2.3版本即可。

猜你喜欢

转载自blog.csdn.net/Lq_520/article/details/85323058
今日推荐