Spark Structured Streaming HelloWorld - 代码天地

Spark Structured Streaming HelloWorld

企业开发 2023-10-04 23:58:12 阅读次数: 0

Spark Structured Streaming HelloWorld

前言
正文

前言

Spark Structured Streaming+Kafka+Hbase Scala版教程，整体入口。

正文

1.Spark版本选择

选择你自己服务器对应的版本；文档地址:
https://spark.apache.org/docs/
这个地址打开都是版本号，选择自己环境里的Spark就可以了；
这里我用的是2.4.5；文档发布时间最新版是3.3.3

2.官方例子

进入对应版本之后可以在下边找到Spark的主要功能，如下图
Spark Streaming已经明确标明是老API了，新的API就是Structured Streaming，图里用红圈圈出来了，所以我当前用的就是新API。Structured Streaming
在这里插入图片描述

HelloWorld代码

官方的一个简单的word count例子

// Create DataFrame representing the stream of input lines from connection to localhost:9999
val lines = spark.readStream
  .format("socket")
  .option("host", "localhost")
  .option("port", 9999)
  .load()

// Split the lines into words
val words = lines.as[String].flatMap(_.split(" "))

// Generate running word count
val wordCounts = words.groupBy("value").count()

批处理代码例子

官方例子，这里说一下我的理解，streamingDF是一个批次的数据；foreachBatch就是循环每个批次；批次里的数据就在batchDF，打印批次号batchId就能看到这个批次号是个自增的数字；

streamingDF.writeStream.foreachBatch {
    
     (batchDF: DataFrame, batchId: Long) =>
	//这行是缓存一下,这样后续的操作不会重复的执行前边transform操作了
  batchDF.persist()
  //对一个批次里的数据进行操作，具体根据是什么操作写法不一样
  batchDF.write.format(...).save(...)  // location 1
  batchDF.write.format(...).save(...)  // location 2
  //完事必须把缓存释放了
  batchDF.unpersist()
}

猜你喜欢

转载自blog.csdn.net/lwb314/article/details/125974541

Spark Structured Streaming HelloWorld

Spark Structured Streaming

Spark Streaming & Structured Streaming分析

[Structured streaming基础]--Structured Streaming 和Spark streaming的区别

Apache Spark Structured Streaming and watermarks

Spark 2.3.0 Structured Streaming详解

Spark Structured Streaming、Kafak整合

Spark：Structured Streaming Sink总结

Spark -- Structured Streaming入门介绍

spark--Structured Streaming实战-★★★★

Spark Streaming vs. Structured Streaming

Structured Streaming 和 Spark streaming的区别

《Spark Structured Streaming》官方文档解读

【大数据】【Spark】 Structured Streaming基础

DataFlow编程模型与Spark Structured streaming

SSS —— Spark Structured Streaming 之理解与入门

spark--Structured Streaming-介绍-★

sparksql和sparkcore/spark streaming/Structured streaming 的选用总结

structured streaming

Spark入门( 八)——Spark流计算新玩法-Structured Streaming

Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast总结

Spark2.0版本神器Structured Streaming

spark知识体系06-Structured Streaming

学习Spark2.0中的Structured Streaming（一）

Spark Structured Streaming 与 Flink不同的checkpoint实现方式（上）

14. spark学习之旅之structured streaming（八）

Structured Streaming Programming Guide（基于Spark 2.4.0官方文档）

SSS —— Spark Structured Streaming 之单列拆分成多列

spark2.3结构化(Structured Streaming)的流之Streaming+streaming join

Spark Streaming 对比 Structured Streaming（及其内部的两种模式 MicroBatch Streaming VS Continous Streaming）

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

第五讲：AbstractBean以及Ioc常见注解使用和自动装配

python-re模块学习-正则表达式

黑客攻击常用手段

正则表达式的规则

windwos::mutex

Spring中日志的使用（log4j）

Bootstra5 按钮处理

JVM内存结构-这一篇全部了解

Android的低级错误

Oracle中Cursor, A表a1字段值复制到B表b1字段

每日归档

更多

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)