python+spark 2.0+hadoop 机器学习与大数据实战第十一章部分代码 - 代码天地

python+spark 2.0+hadoop 机器学习与大数据实战第十一章部分代码

其他 2019-03-01 13:00:35 阅读次数: 0

wordcount.py代码

from pyspark import SparkContext
from pyspark import SparkConf
import sys
def SetLogger( sc ):
logger = sc._jvm.org.apache.log4j
logger.LogManager.getLogger("org"). setLevel( logger.Level.ERROR )
logger.LogManager.getLogger("akka").setLevel( logger.Level.ERROR )
logger.LogManager.getRootLogger().setLevel(logger.Level.ERROR)

def SetPath(sc):
global Path
if sc.master[0:5]=="local" :
Path="/home/hduser/pythonwork/pythonproject/"
else:
Path="hdfs://master:9000/user/hduser/"
#如果要在cluster模式运行(hadoop yarn 或Spark Stand alone)，请按照书上的说明，先把文件上传到HDFS目录

def CreateSparkContext():
sparkConf = SparkConf() \
.setAppName("WordCounts") \
.set("spark.ui.showConsoleProgress", "false") \

sc = SparkContext(conf = sparkConf)
print("master="+sc.master)
SetLogger(sc)
SetPath(sc)
return (sc)

if __name__ == "__main__":
reload(sys)
sys.setdefaultencoding('utf-8')
print("开始运行RunWordCount")
sc=CreateSparkContext()

print("开始读取文本文件...")
textFile = sc.textFile(Path+"data/README.md")
#print("文本文件共"+str(textFile.count())+"行")
print(textFile.count())
countsRDD = textFile \
.flatMap(lambda line: line.split(' ')) \
.map(lambda x: (x, 1)) \
.reduceByKey(lambda x,y :x+y)

print("文字统计共"+str(countsRDD.count())+"项数据")
print("开始存储到文本文件...")
try:
countsRDD.saveAsTextFile(Path+ "data/output")

except Exception as e:
print("输出目录已经存在,请先删除原有目录")
sc.stop()

1、本地提交代码命令：

spark-submit --driver-memory 2g --master local[3] wordcount.py

利用jupyter notebook 进行运行

首先切换到工作目录

cd ~/pythonwork/ipynotebook

1、本地运行命令：(小插曲：该命令直接复制过去不可以运行，手敲就可以)

PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark

2、Hadoop yarn-client运行命令：(需提前启动Hadoop集群)

PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop MASTER=yarn-client pyspark

猜你喜欢

转载自blog.csdn.net/herr_kun/article/details/84954227

python+spark 2.0+hadoop 机器学习与大数据实战第十一章部分代码

python+spark 2.0+hadoop 机器学习与大数据实战第八章代码

Python+Spark 2.0+Hadoop机器学习与大数据实战目录

python+spark2.0 + Hadoop机器学习与大数据实战——学习笔记

《Python Spark 2.0 Hadoop机器学习与大数据实战_林大贵(著)》pdf

基于Python+Spark的数据科学与商业实践视频教程

基于Python+Spark分布式数据操作：求精确中位数并验证

python+spark(二）

python学习第十一章

Python教材第十一章部分习题

1 大数据实战系列-spark+hadoop集成环境搭建

Python+Spark2.0+hadoop学习笔记——Hadoop MapReduce

Hadoop 大数据实战手册学习-3

Hadoop 大数据实战手册学习-2

大数据全家桶：Hadoop，Spark，Strom，Druid实战，机器学习算法

[大数据项目]-0003-大数据实时流统计实战（完结）-（Hadoop2.7+spark2.2）

等保2.0.第十一章.等保2.0实战（下）

等保2.0.第十一章.等保2.0实战（上）

Python+Spark2.0+hadoop学习笔记——Spark ML Pipeline机器学习流程

「资源」每天花5h来学习Hadoop+Spark大数据巨量分析与机器学习实战

《Python数据分析与数据挖掘实战》第十一章学习——ARMA模型

学习笔记-第十一章恶意代码分析实战

Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Decision Tree MultiClassification多分类

Python+Spark2.0+hadoop学习笔记——Python Spark MLlib决策树回归

Python+Spark2.0+hadoop学习笔记——实战之推荐引擎

大数据，云计算，架构，数据分析师，Hadoop，Spark，Storm，Kafka，人工智能，机器学习，深度学习，项目实战视频教程

38套大数据，云计算，架构，数据分析师，Hadoop，Spark，Storm，Kafka，人工智能，机器学习，深度学习，项目实战视频教程

大数据，云计算，架构，数据分析师，Hadoop，Spark，Storm，Kafka，人工智能，机器学习，深度学习，项目实战

Python编程从入门到实践第十一章-测试代码

大数据Hadoop，spark学习

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)