spark streaming scala -统计热门搜索词 - 代码天地

spark streaming scala -统计热门搜索词

其他 2018-05-16 22:29:09 阅读次数: 2

本文主要通过spark streaming实现基于热门搜索词的统计

import org.apache.spark.SparkConf
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds

/**
 * @author jhp
  *         统计热门搜索词
 */
object WindowHotWord {
  //数据格式: 手机
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
        .setMaster("local[2]")  
        .setAppName("WindowHotWord")
    val ssc = new StreamingContext(conf, Seconds(1))
    
    val searchLogsDStream = ssc.socketTextStream("spark1", 9999)  
    val searchWordsDStream = searchLogsDStream.map { _.split(" ")(1) }  
    val searchWordPairsDStream = searchWordsDStream.map { searchWord => (searchWord, 1) }  
    //使用reduceByKeyAndWindow
    val searchWordCountsDSteram = searchWordPairsDStream.reduceByKeyAndWindow(
        (v1: Int, v2: Int) => v1 + v2, 
        Seconds(60), 
        Seconds(10))  
    //转换为RDD
    val finalDStream = searchWordCountsDSteram.transform(searchWordCountsRDD => {
      val countSearchWordsRDD = searchWordCountsRDD.map(tuple => (tuple._2, tuple._1))  
      val sortedCountSearchWordsRDD = countSearchWordsRDD.sortByKey(false)  
      val sortedSearchWordCountsRDD = sortedCountSearchWordsRDD.map(tuple => (tuple._1, tuple._2))
      
      val top3SearchWordCounts = sortedSearchWordCountsRDD.take(3)
      for(tuple <- top3SearchWordCounts) {
        println(tuple)
      }
      
      searchWordCountsRDD
    })
    
    finalDStream.print()
    //启动
    ssc.start()
    ssc.awaitTermination()
  }
  
}

猜你喜欢

转载自blog.csdn.net/qq_18603599/article/details/79970159

spark streaming scala -统计热门搜索词

spark streaming scala-统计热门产品

spark streaming - scala统计hdfs

Spark-Streaming的window滑动窗口及热点搜索词统计案例

Spark Streaming整合Kafka（scala）

Spark Streaming整合Flume（scala）

spark streaming scala-updateStateByKey 进行key的累加统计

Spark Streaming和Spark SQL关联使用，实现词频统计（scala）

spark streaming scala 过滤黑名单

scala spark-streaming整合kafka （spark 2.3 kafka 0.10）

Spark Streaming 统计单词的例子

Spark Streaming词频统计实例

Spark Streaming状态管理函数（二）——updateStateByKey的使用（scala版）

Spark Streaming状态管理函数（三）——MapWithState的使用（scala版）

Spark Streaming实现黑名单过滤（scala）

Spark Streaming

Spark Streaming小程序试验-《单词统计》

使用Spark Streaming完成有状态统计

Spark Streaming消费Kafka的数据进行统计

Spark: Spark Streaming

Spark------Spark Streaming

[Spark]-Spark streaming

【SPARK】Spark Streaming简介

使用Spark Streaming整合Spark SQL完成词频统计操作

Spark Streaming & Structured Streaming分析

使用scala开发spark streaming程序消费kafka的数据--wordcount程序

kafka->spark->streaming->mysql（scala）实时数据处理案列

Spark Streaming实现词频计算将结果保存到Mysql数据库（scala）

Scala Spark Streaming + Kafka + Zookeeper完成数据的发布和消费

Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)