14. spark学习之旅之structured streaming（八）

其他 2020-03-18 10:20:48 阅读次数: 0

文章目录

1. [structured streaming 官方文档](http://spark.apache.org/docs/2.4.5/structured-streaming-programming-guide.html)
2. [Spark Structured Streaming官方文档解读](https://blog.csdn.net/bluishglc/article/details/80423323)
3. structured streaming版本的单词统计案例
4. 项目部分（待完善）

1. structured streaming 官方文档

2. Spark Structured Streaming官方文档解读

3. structured streaming版本的单词统计案例

package com.xiaofan.ss

import org.apache.spark.sql.functions._
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.streaming.StreamingQuery
import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

object StructuredStreamingDemo {
  // 设置日志级别
  Logger.getLogger("org").setLevel(Level.WARN)

  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder
      .appName("StructuredNetworkWordCount")
      .master("local[2]")
      .getOrCreate()

    import spark.implicits._
    // Create DataFrame representing the stream of input lines from connection to 192.168.1.27 9999 （输入表）
    val lines: DataFrame = spark.readStream
      .format("socket")
      .option("host", "192.168.1.27")
      .option("port", 9999)
      .load()

    val words: Dataset[String] = lines.as[String].flatMap(_.split(" "))
    // Generate running word count （结果表）
    val wordCounts: DataFrame = words.groupBy("value").count()
    // Start running the query that prints the running counts to the console
    val query: StreamingQuery = wordCounts.writeStream
      .outputMode("complete")
      .format("console")
      .start()

    query.awaitTermination()
  }
}

4. 项目部分（待完善）

越奋斗，越幸运

发布了85 篇原创文章 · 获赞 12 · 访问量 3723

私信关注

猜你喜欢

转载自blog.csdn.net/fanjianhai/article/details/104456827

14. spark学习之旅之structured streaming（八）

Spark入门( 八)——Spark流计算新玩法-Structured Streaming

spark学习之旅（4）之Streaming的使用

LeetCode之14. Longest Common Prefix

14.蓝桥杯之古代赌局

14.算法习题之单调栈

14.机器学习模型评估

NumPy学习笔记14.数学函数

Spark Streaming & Structured Streaming分析

Spark Structured Streaming

Spark Structured Streaming HelloWorld

NOIP学习之循环控制:14.角谷猜想

[Structured streaming基础]--Structured Streaming 和Spark streaming的区别

13. spark学习之旅之streaming（七）

14.大数据之ZooKeeper集群安装

设计模式之禅--14.迭代器模式

14. C++知识点之for语句

14.小白学python函数之5

【快学springboot】14.操作redis之list

LeetCode刷题之14.最长公共前缀

Linux后台开发系列之「14.文件锁定」

CS231n学习笔记--14. Reinforcement Learning

Thinking In Java 学习笔记 14.类型信息

树梅派学习 14. 雨滴检测上报系统

【SpringBoot学习之路】14.国际化

14. redis设计与实现学习笔记-事务

Flutter学习记录——14.生命周期

inux学习笔记：14.软件开发简介

SSS —— Spark Structured Streaming 之单列拆分成多列

Apache Spark Structured Streaming and watermarks

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)