windows安装pyspark(python版spark)

现在安装pyspark不用像上一篇介绍的那么繁琐的步骤了。
就只需要两步就好


安装Java/Jdk

过程基本参照上一篇,保证cmd下

java -version

可以得出如下的正确结果就好了。

java version "1.8.0_172"
Java(TM) SE Runtime Environment (build 1.8.0_172-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.172-b11, mixed mode)


安装pyspark

直接像其它python包一样pip安装就好了

pip install -U pyspark

如果国内网速太慢,添加镜像

pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

验证

新版本之后的spark推崇ml包和Dataset/DataFrame

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# 初始化
spark = SparkSession.builder.master("local[*]").appName("FiratApp").getOrCreate()

# 下面两句都可以获取0到9的数据
# data = spark.createDataFrame(map(lambda x: (x,), range(10)), ["id"])
data = spark.range(0, 10).select(col("id").cast("double"))

# 求和
data.agg({'id': 'sum'}).show()

# 关闭
spark.stop()

+-------+
|sum(id)|
+-------+
|   45.0|
+-------+

猜你喜欢

转载自blog.csdn.net/HJXINKKL/article/details/81951551