spark streaming - scala统计hdfs - 代码天地

spark streaming - scala统计hdfs

其他 2018-05-16 22:28:54 阅读次数: 2

本文章主要通过spark streaming实现hdfs文件的统计

import org.apache.spark.SparkConf
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds

/**
 * @author jhp
  *         spark streaming读取hdfs文件
 */
object HDFSWordCount {
  
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
        .setMaster("local[2]")  
        .setAppName("HDFSWordCount")
    val ssc = new StreamingContext(conf, Seconds(5))
    
    val lines = ssc.textFileStream("hdfs://spark1:9000/wordcount_dir")  
    val words = lines.flatMap { _.split(" ") }  
    val pairs = words.map { word => (word, 1) }  
    val wordCounts = pairs.reduceByKey(_ + _)  
    
    wordCounts.print()  
    
    ssc.start()
    ssc.awaitTermination()
  }
  
}

猜你喜欢

转载自blog.csdn.net/qq_18603599/article/details/79970119

spark streaming - scala统计hdfs

spark streaming scala-统计热门产品

Spark Streaming 监控HDFS目录

Spark Streaming整合Kafka（scala）

Spark Streaming整合Flume（scala）

Spark Streaming 统计单词的例子

Spark Streaming词频统计实例

spark streaming scala -统计热门搜索词

spark streaming scala-updateStateByKey 进行key的累加统计

spark streaming监控HDFS文件目录

Spark-Streaming hdfs count 案例

spark streaming scala 过滤黑名单

Spark Streaming和Spark SQL关联使用，实现词频统计（scala）

Spark Streaming小程序试验-《单词统计》

使用Spark Streaming完成有状态统计

Spark Streaming消费Kafka的数据进行统计

Spark Streaming

scala spark-streaming整合kafka （spark 2.3 kafka 0.10）

使用Spark Streaming整合Spark SQL完成词频统计操作

Spark: Spark Streaming

Spark------Spark Streaming

[Spark]-Spark streaming

【SPARK】Spark Streaming简介

Spark Streaming & Structured Streaming分析

Kafka+Spark streaming读取数据存hdfs

Spark Streaming状态管理函数（三）——MapWithState的使用（scala版）

Spark Streaming状态管理函数（二）——updateStateByKey的使用（scala版）

Spark Streaming实现黑名单过滤（scala）

Structure Streaming和spark streaming原生API访问HDFS文件数据对比

【Spark Streaming】3、Spark Streaming入门

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)