Python创建Spark对象并进行行数统计

Python创建Spark对象并进行行数统计

环境

CentOS Linux release 8.1.1911 (Core)
Spark version 3.0.0
conda 4.8.2
Python 3.7.6

实现代码

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)

lines = sc.textFile("lines.py")
print("line count : %d " % lines.count())

运行命令

  • 使用Spark自带的脚本spark-submit运行,自动添加Spark依赖
spark-submit Count.py
  • 使用pip安装pyspark包
pip install pyspark
python Cout.py

运行结果

line count : 61

鸣谢

Spark快速大数据分析

最后

  • 由于博主水平有限,不免有疏漏之处,欢迎读者随时批评指正,以免造成不必要的误解!

猜你喜欢

转载自blog.csdn.net/qq_44486439/article/details/108128031
今日推荐