Windows安装Pyspark

又重新装一遍真开心,装的版本太新了spark2.4.0版本,具体原因请看https://blog.csdn.net/dylan_me/article/details/85120131
我装完之后运行程序一直报这个错
在这里插入图片描述
参考链接:https://blog.csdn.net/weixin_38556445/article/details/78182264?tdsourcetag=s_pcqq_aiomsg
https://blog.csdn.net/funfun0/article/details/77802590?tdsourcetag=s_pcqq_aiomsg
https://blog.csdn.net/baidu_24536755/article/details/80012315

spark安装和配置

spark下载地址:http://spark.apache.org/downloads.html
最好是下载2.0~2.3之前的spark,spark2.0以下是不支持Python3.6及其以上的,spark2.4又存在一些bug。
这是我装的版本
在这里插入图片描述
以下截图是我之前安装spark2.4,懒得改截图了,就这样看吧
在这里插入图片描述
下载完成后解压
新建SPARK_HOME,填你的解压路径
在Path中追加一句,配置好环境变量

;%SPARK_HOME%;%SPARK_HOME%\bin;%SPARK_HOME%\sbin

许多人装好了spark,在cmd输入spark-shell出现如下输出
在这里插入图片描述
这还是没装好(我之前就是卡在这了),请接下去跟着我的教程做就可以解决了

pyspark的安装

一种是pip install pyspark==版本号安装
另一种是直接将spark\python\pyspark复制到D:\Python37\Lib\site-packages下(我是选择这种方式装的)

hadoop的安装和配置

https://archive.apache.org/dist/hadoop/common/下载spark对应版本的hadoop

将hadoop下载完解压好,设置好环境变量
添加 HADOOP_HOME 值为hadoop解压目录
添加到path环境变量 ;%HADOOP_HOME%\bin

下载2.7版本hadoop 会缺少winutils.exe
http://blog.csdn.net/u011513853/article/details/52865076 下载对应hadoop 版本的winutils.exe
下载完毕后 将 winutils.exe 复制到 %HADOOP_HOME%\bin 目录下,然后以管理员的身份打开cmd,然后通过cd命令进入到Hadoop的bin目录下,然后执行以下命令:
winutils.exe chmod 777 c:\tmp\Hive
如果没有c:\tmp\Hive则自己建一下

测试代码:

from pyspark import SparkContext

logFile = "D:/spark/spark-2.4.0-bin-hadoop2.7/README.md"
sc = SparkContext("local","Simple App")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()

print("Lines with a: %i, lines with b: %i"%(numAs, numBs))

终于装成功之后(我是直接将spark下的pyspark复制到Python下的)
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_39905917/article/details/89460587
今日推荐