Spark Streaming和Spark SQL关联使用，实现词频统计（scala） - 代码天地

Spark Streaming和Spark SQL关联使用，实现词频统计（scala）

其他 2019-03-14 11:10:57 阅读次数: 0

此实例为官网的整合实例，仅供参考。

package com.fyy.spark.streaming

import org.apache.spark.SparkConf
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.SparkSession
import org.apache.spark.streaming.{Seconds, StreamingContext, Time}

/**
  * @Title: SqlAndStreaming
  * @ProjectName SparkStreamingProject
  * @Description: Spark Streaming整合Spark SQL进行词频统计操作
  * @author fanyanyan
  */
object SqlAndStreaming {
  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf().setAppName("SqlAndStreaming").setMaster("local[*]")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    val lines = ssc.socketTextStream("01.server.bd", 6666)
    val words = lines.flatMap(_.split(" "))

    // 将words DStream的RDD转换为DataFrame并运行SQL查询
    words.foreachRDD { (rdd: RDD[String], time: Time) =>
      val spark = SparkSessionSingleton.getInstance(rdd.sparkContext.getConf)
      import spark.implicits._

      // 将RDD[String]转换为RDD[case class]在形成DataFrame
      val wordsDataFrame = rdd.map(w => Record(w)).toDF()

      // 为DataFrame创建一个临时的视图
      wordsDataFrame.createOrReplaceTempView("words")

      // 通过sql进行统计
      val wordCountsDataFrame =
        spark.sql("select word, count(*) as num from words group by word")
      println(s"=========分隔符=========")
      wordCountsDataFrame.show()
    }

    ssc.start()
    ssc.awaitTermination()
  }

  /** Case class for converting RDD to DataFrame */
  case class Record(word: String)


  /** 延迟实例化SparkSession的单例实例 */
  object SparkSessionSingleton {

    @transient private var instance: SparkSession = _

    def getInstance(sparkConf: SparkConf): SparkSession = {
      if (instance == null) {
        instance = SparkSession
          .builder
          .config(sparkConf)
          .getOrCreate()
      }
      instance
    }
  }

}

猜你喜欢

转载自blog.csdn.net/adayan_2015/article/details/88422038

Spark Streaming和Spark SQL关联使用，实现词频统计（scala）

Spark SQL和Spark Streaming简介

使用Spark Streaming整合Spark SQL完成词频统计操作

Spark Streaming词频统计实例

[Spark][spark_streaming]#5_spark_streaming&spark_sql

Spark的Streaming和Spark的SQL简单入门学习

五、spark--spark streaming原理和使用

Spark Streaming和Flume的结合使用

spark streaming - scala统计hdfs

使用Spark实现词频统计

spark streaming容错实现

java 实现 spark Streaming

Spark Streaming实现WordCount

spark streaming foreachRDD 使用

Spark Streaming 的foreachRDD使用

Spark Streaming 使用

spark streaming 中使用 spark sql

Spark Streaming与Spark SQL结合操作详解

Spark实践二：Spark streaming的使用测试

Spark Streaming整合Kafka（scala）

Spark Streaming整合Flume（scala）

spark2.x-java-用spark-sql和spark-streaming 统计网站的访客数(uv)

spark streaming scala-统计热门产品

Spark Streaming 统计单词的例子

Spark学习笔记：Spark Streaming与Spark SQL协同工作

spark core、spark sql、spark streaming 联系与区别

Spark DataFrame、Spark SQL、Spark Streaming入门教程

Spark-Streaming的学习使用

spark streaming的checkpoint使用代码

Spark05_Streaming的使用

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)