Spark Streaming实现WordCount - 代码天地

Spark Streaming实现WordCount

其他 2021-04-06 22:55:28 阅读次数: 0

利用Spark Streaming实现WordCount

需求：监听某个端口上的网络数据，实时统计出现的不同单词个数。

1，需要安装一个nc工具：sudo yum install -y nc

2，执行指令：nc -lk 9999 -v

import os
#### 配置spark driver和pyspark运行时，所使用的python解释器路径
PYSPARK_PYTHON = " "    # pyspark 路径
JAVA_HOME=' '    # java 路径
SPARK_HOME = " "    # spark 路径
#### 当存在多个版本时，不指定很可能会导致出错
os.environ["PYSPARK_PYTHON"] = PYSPARK_PYTHON
os.environ["PYSPARK_DRIVER_PYTHON"] = PYSPARK_PYTHON
os.environ['JAVA_HOME']=JAVA_HOME
os.environ["SPARK_HOME"] = SPARK_HOME

from pyspark.sql import SparkSession
from pyspark import SparkContext
from pyspark.streaming import StreamingContext

if __name__ == "__main__":

    spark = SparkSession.builder.appName("xxx").getOrCreate()
    sc = spark.sparkContext

    #参数2：指定执行计算的时间间隔
    ssc = StreamingContext(sc, 1)
    #监听ip，端口上的上的数据
    lines = ssc.socketTextStream('localhost',9999)
    #将数据按空格进行拆分为多个单词
    words = lines.flatMap(lambda line: line.split(" "))
    #将单词转换为(单词，1)的形式
    pairs = words.map(lambda word:(word,1))
    #统计单词个数
    wordCounts = pairs.reduceByKey(lambda x,y:x+y)
    #打印结果信息，会使得前面的transformation操作执行
    wordCounts.pprint()
    #启动StreamingContext
    ssc.start()
    #等待计算结束
    ssc.awaitTermination()

可视化查看效果：http://主机IP:4040

点击streaming，查看效果

猜你喜欢

转载自blog.csdn.net/weixin_45639174/article/details/104416682

Spark Streaming实现WordCount

java8实现spark streaming的wordcount

spark streaming中WordCount

从WordCount入门Spark Streaming

Spark Streaming 实战 WordCount

Spark Streaming 简单示例(WordCount)

Spark Streaming 实战 WordCount（累加）

Spark Streaming流式计算的WordCount入门

使用idea编写Spark Streaming_WordCount

Spark Streaming（WordCount、Window、ForEachRDD练习）

java实现kafka整合spark streaming完成wordCount,updateStateByKey完成实时状态更新

Spark实现WordCount

spark streaming容错实现

java 实现 spark Streaming

Spark Streaming整合Spark SQL之wordcount案例

Spark --Spark Streaming实战 WordCount他来啦！！！ updateStateByKey reduceByKeyAndWindow

Spark用Java实现的WordCount

4 | Java Spark实现 WordCount

Flume+Kakfa+Spark Streaming整合（运行WordCount小例子）

SparkStreaming（9）：实例-Streaming整合Spark SQL，进行wordcount功能

《Spark Streaming 有状态wordCount示例（updateStateByKey的使用）》

Spark Streaming 自定义数据源之 WordCount

Spark Streaming快速入门系列(2) | wordcount案例

Spark WordCount

Spark的WordCount

Spark: Spark Streaming

Spark------Spark Streaming

[Spark]-Spark streaming

【SPARK】Spark Streaming简介

Spark Streaming

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)