现在安装pyspark不用像上一篇介绍的那么繁琐的步骤了。
就只需要两步就好
安装Java/Jdk
过程基本参照上一篇,保证cmd下
java -version
可以得出如下的正确结果就好了。
java version "1.8.0_172"
Java(TM) SE Runtime Environment (build 1.8.0_172-b11)
Java HotSpot(TM) 64-Bit Server VM (build 25.172-b11, mixed mode)
安装pyspark
直接像其它python包一样pip安装就好了
pip install -U pyspark
如果国内网速太慢,添加镜像
pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark
验证
新版本之后的spark推崇ml包和Dataset/DataFrame
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
# 初始化
spark = SparkSession.builder.master("local[*]").appName("FiratApp").getOrCreate()
# 下面两句都可以获取0到9的数据
# data = spark.createDataFrame(map(lambda x: (x,), range(10)), ["id"])
data = spark.range(0, 10).select(col("id").cast("double"))
# 求和
data.agg({'id': 'sum'}).show()
# 关闭
spark.stop()
+-------+
|sum(id)|
+-------+
| 45.0|
+-------+