java8实现spark streaming的wordcount - 代码天地

java8实现spark streaming的wordcount

其他 2018-10-31 18:21:57 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/qq_24084925/article/details/80842521

概念这里就不说了，从案例开始，惯例，hellowrod，哦不，wordcount。
要计算从一个监听 TCP socket 的数据服务器接收到的文本数据（text data）中的字数。
主体代码部分跟spark相差不大，毕竟DStream是RDD产生的模板（或者说类）。

1.导入了 Spark Streaming 类

 <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-streaming_2.11</artifactId>
        <version>2.0.0</version>
    </dependency>

2.代码示例

//注意本地调试，master必须为local[n],n>1,表示一个线程接收数据，n-1个线程处理数据
SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("streaming word count");
JavaSparkContext sc = new JavaSparkContext(conf);
//设置日志运行级别
sc.setLogLevel("WARN");
JavaStreamingContext ssc = new JavaStreamingContext(sc, Durations.seconds(1));
//创建一个将要连接到hostname:port 的离散流
JavaReceiverInputDStream<String> lines = 
ssc.socketTextStream("master1", 9999);
JavaPairDStream<String, Integer> counts = 
        lines.flatMap(x->Arrays.asList(x.split(" ")).iterator())
        .mapToPair(x -> new Tuple2<String, Integer>(x, 1))
        .reduceByKey((x, y) -> x + y);

// 在控制台打印出在这个离散流（DStream）中生成的每个 RDD 的前十个元素
counts.print();
// 启动计算
ssc.start();
ssc.awaitTermination();

3.建立服务端

找台linux服务器，运行netcat小工具：
nc -lk 9999
也就是上面代码里socketTextStream的参数.

4.运行测试
本地启动java代码后，控制台会循环打印时间戳。
在nc那边随意输入，本地即可实时看到统计结果。
这里写图片描述

猜你喜欢

转载自blog.csdn.net/qq_24084925/article/details/80842521

java8实现spark streaming的wordcount

Spark Streaming实现WordCount

spark streaming中WordCount

从WordCount入门Spark Streaming

Spark Streaming 实战 WordCount

Spark Streaming 简单示例(WordCount)

Spark Streaming 实战 WordCount（累加）

Spark Streaming流式计算的WordCount入门

使用idea编写Spark Streaming_WordCount

Spark Streaming（WordCount、Window、ForEachRDD练习）

python基于Hadoop Streaming实现简单的WordCount

streaming通过sql实现wordcount代码

Spark Streaming整合Spark SQL之wordcount案例

Spark --Spark Streaming实战 WordCount他来啦！！！ updateStateByKey reduceByKeyAndWindow

Flume+Kakfa+Spark Streaming整合（运行WordCount小例子）

SparkStreaming（9）：实例-Streaming整合Spark SQL，进行wordcount功能

《Spark Streaming 有状态wordCount示例（updateStateByKey的使用）》

Spark Streaming 自定义数据源之 WordCount

Spark Streaming快速入门系列(2) | wordcount案例

java实现kafka整合spark streaming完成wordCount,updateStateByKey完成实时状态更新

Hadoop WordCount（Streaming，Python，Java三合一）

java8下spark-streaming结合kafka编程（spark 2.0 & kafka 0.10）

java8下spark-streaming结合kafka编程（spark 2.3 kafka 0.10）

windows环境下跑通spark streaming wordcount，先了解windows下的nc用法

使用scala开发spark streaming程序消费kafka的数据--wordcount程序

java 实现 spark Streaming

【IDEA+Spark Streaming 3.4.1+Dstream监控套接字流统计WordCount保存至MySQL8】

Spark用Java实现的WordCount

4 | Java Spark实现 WordCount

Spark实现WordCount

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)