Spark整合HDFS、WordCount示例 - 代码天地

Spark整合HDFS、WordCount示例

企业开发 2018-05-10 08:24:10 阅读次数: 0

原创转载请注明出处：http://agilestyle.iteye.com/blog/2294233

前提条件

Hadoop HA搭建完毕

Spark HA搭建完毕

整合步骤

cd到spark的conf的目录，修改spark-env.sh

添加如下

export HADOOP_CONF_DIR=/home/hadoop/app/hadoop-2.6.4/etc/hadoop

保存退出，将spark-env.sh分发到其他两个节点

scp spark-env.sh hadoop-0000:/home/hadoop/app/spark-1.6.1-bin-hadoop2.6/conf
scp spark-env.sh hadoop-0001:/home/hadoop/app/spark-1.6.1-bin-hadoop2.6/conf

启动

首先启动Hadoop HA

http://hadoop-0000:50070 —— active

http://hadoop-0001:50070 —— standby

接着启动Spark HA（这里选择是hadoop-0002作为master）

http://hadoop-0002:8080 —— ALIVE

http://hadoop-0001:8080 —— STANDBY

执行spark-shell

spark-shell --master spark://hadoop-0002:7077

WordCount

为了运行WordCount，需要上传一个文件到HDFS

hadoop fs -put wordcount.txt /spark/wordcount

切回spark-shell，执行如下

val rdd = sc.textFile("hdfs://hadoop-0000:9000/spark/wordcount/wordcount.txt")

接着执行

rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect

这条语句等价于

rdd.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b).collect

猜你喜欢

转载自agilestyle.iteye.com/blog/2294233

Spark整合HDFS、WordCount示例

Spark SQL简单示例(WordCount)

Spark Streaming 简单示例(WordCount)

Apache Spark JavaAPI WordCount示例

Spark保持HDFS示例

tachyon与hdfs,以及spark整合

HDFS的wordcount

Spark Streaming整合Spark SQL之wordcount案例

Spark学习笔记：基于HDFS的实时计算WordCount

使用java和scala编写spark-WordCount示例

IDEA下使用Maven搭建spark开发环境WordCount示例

《Spark Streaming 有状态wordCount示例（updateStateByKey的使用）》

Spark WordCount

Spark的WordCount

Flume+Kakfa+Spark Streaming整合（运行WordCount小例子）

SparkStreaming（9）：实例-Streaming整合Spark SQL，进行wordcount功能

在Spark shell中基于HDFS文件系统进行wordcount交互式分析

IDEA编写wordcount，读取hdfs文件，运行在Spark集群例子

44-天亮大数据系列教程之sbt构建spark项目及wordcount示例

Storm的wordcount实战示例

060 SparkStream 的wordcount示例

mr WordCount示例编写

spark eclipse写wordcount

Spark入门之WordCount

Spark wordCount案例

spark 例子wordcount topk

Spark的WordCount练习（二）

spark---01---wordcount

Spark wordcount入门

spark的wordcount执行流程

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)