Spark WordCount - 代码天地

Spark WordCount

企业开发 2018-06-24 21:13:08 阅读次数: 3

1.1、创建测试文件

$ cd ~/ipynotebook/
$ mkdir data
$ cd data/
$ vim word.txt
$ tail word.txt 
hadoop spark hive
hive java python
spark perl hadoop
python RDD spark
RDD

1.2、编写spark wordcount程序

编写wordcount 程序

$ vim wordcount.py 

#!/usr/bin/env python

from pyspark import SparkContext, SparkConf

conf = SparkConf().setMaster("local").setAppName("pyspark WordCount")
sc = SparkContext(conf = conf)

textFile = sc.textFile("data/word.txt")
stringRDD = textFile.flatMap(lambda line:line.split(" "))
countsRDD = stringRDD.map(lambda word:(word,1)).reduceByKey(lambda x,y:x+y)
countsRDD.saveAsTextFile("data/output")

spark-submit 执行程序

$ spark-submit wordcount.py

查看结果

$ cd ~/ipynotebook/data/
$ tree
.
├── output
│   ├── part-00000
│   └── _SUCCESS
└── word.txt

1 directory, 3 files
$ tail output/part-00000 
('hadoop', 2)
('spark', 3)
('hive', 2)
('java', 1)
('python', 2)
('perl', 1)
('RDD', 2)
('', 1)

猜你喜欢

转载自blog.51cto.com/balich/2132267

Spark WordCount

Spark的WordCount

spark eclipse写wordcount

Spark入门之WordCount

Spark wordCount案例

spark 例子wordcount topk

Spark的WordCount练习（二）

spark---01---wordcount

Spark wordcount入门

spark的wordcount执行流程

Spark job WordCount分析

spark入门程序WordCount

Spark核心编程-WordCount

Spark- WordCount Demo

使用 Spark 创建WordCount

Spark写WordCount

WordCount在Spark的执行原理

spark streaming中WordCount

spark_wordcount

Spark+IDEA+WordCount

spark wordcount 单词统计

Spark WordCount 执行流程

Spark实现WordCount

Spark开发wordcount程序

spark scala wordcount 例子

Spark -- WordCount程序

Spark 编写WordCount程序

3、spark Wordcount

Spark-WordCount

Spark（一）wordcount

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)