Spark学习笔记：基于HDFS的实时计算WordCount

其他 2018-12-24 09:21:06 阅读次数: 0

基于HDFS的实时计算WordCount

基于HDFS文件的实时计算，其实就是监控一个HDFS目录，只要有新文件出现就实时处理
StreamingContext.fileStream(dataDirectory)方法可以从多种文件系统的文件中读取数据，然后创建一个DStream

package StreamingDemo

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 基于HDFS的实时WordCount
  */
object HDFSWordCount {
  def main(args: Array[String]): Unit = {
    //设置日志的级别
    Logger.getLogger("org").setLevel(Level.WARN)
    val conf=new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[2]")
    val ssc=new StreamingContext(conf,Seconds(2))

    //从HDFS相应的目录中获取数据，创建输入DStream，监控input目录
    val inputDStream=ssc.textFileStream("hdfs://Hadoop01:9000/input")
    val wordCountDStram = inputDStream.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

    wordCountDStram.print()

    ssc.start()
    ssc.awaitTermination()

  }
}

注意事项
1.所有放入HDFS目录中的文件，都必须有相同的格式
2.文件一旦处理之后，文件的内容即使改变，也不会再处理了
3.基于HDFS文件的数据源是没有Receiver（自定义的receiver相当于Socket套接字的客户端编程）的，因此不会占用一个cpu core

猜你喜欢

转载自blog.csdn.net/lrxcmwy2/article/details/82721427

Spark学习笔记：基于HDFS的实时计算WordCount

基于HDFS的实时计算和wordcount程序

spark笔记-实时计算

Spark Streaming实时计算学习

大数据实时计算Spark学习笔记（11）—— Spark Streaming

基于Kafka的实时计算引擎：Flink能否替代Spark？

基于Kafka和Spark实现实时计算系统

大数据实时计算Spark学习笔记（9）—— Spar SQL(1) 读取 json 文件

大数据实时计算Spark学习笔记（4）—— Spak核心 API 模块介绍

大数据实时计算Spark学习笔记（3）—— Spak Maven 编译插件

大数据实时计算Spark学习笔记（2）—— Spak 集群搭建

大数据实时计算Spark学习笔记（1）—— Spak单词统计

大数据实时计算Spark学习笔记（7）—— RDD 数据倾斜处理

大数据实时计算Spark学习笔记（8）—— RDD 持久化

大数据实时计算Spark学习笔记（5）—— RDD的 transformation

Spark Streaming实时计算框架学习01

大数据实时计算Spark学习笔记（10）—— Spar SQL(2) -JDBC方式操作表

spark streaming准实时计算demo

Spark Streaming实时计算框架介绍

Spark Streaming实时计算实例

SparkStreaming简介 - 与第一个Spark实时计算程序，使用netcat来写数据 - wordcount

.NET 大数据实时计算--学习笔记

flink+kafka+redis实时计算wordcount

Flink+kafka实现Wordcount实时计算

潘国庆：基于 Spark Streaming 构建实时计算平台实战解析

基于MYSQL做实时计算

实时计算的最佳实践：基于表格存储和Blink的大数据实时计算

Spark Streaming实时计算海量用户UV

Spark streaming 实时计算框架基本练习----词频统计

基于实时计算Flink的机器学习算法平台及场景介绍

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)