Spark Streaming整合Kafka实现网站点击流实时统计 - 代码天地

Spark Streaming整合Kafka实现网站点击流实时统计

其他 2018-12-25 03:38:21 阅读次数: 0

版权声明：本博客都是作者10多年工作总结 https://blog.csdn.net/Peter_Changyb/article/details/85234830

安装并配置zk
安装并配置Kafka
启动zk
启动Kafka
创建topic

bin/kafka-topics.sh --create --zookeeper node1.itcast.cn:2181,node2.itcast.cn:2181 \

--replication-factor 3 --partitions 3 --topic urlcount

package cn.itcast.spark.streaming

package cn.itcast.spark

import org.apache.spark.{HashPartitioner, SparkConf}
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

object UrlCount {
  val updateFunc = (iterator: Iterator[(String, Seq[Int], Option[Int])]) => {
    iterator.flatMap{case(x,y,z)=> Some(y.sum + z.getOrElse(0)).map(n=>(x, n))}
  }

  def main(args: Array[String]) {
    //接收命令行中的参数
    val Array(zkQuorum, groupId, topics, numThreads, hdfs) = args
    //创建SparkConf并设置AppName
    val conf = new SparkConf().setAppName("UrlCount")
    //创建StreamingContext
    val ssc = new StreamingContext(conf, Seconds(2))
    //设置检查点
    ssc.checkpoint(hdfs)
    //设置topic信息
    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap
    //重Kafka中拉取数据创建DStream
    val lines = KafkaUtils.createStream(ssc, zkQuorum ,groupId, topicMap, StorageLevel.MEMORY_AND_DISK).map(_._2)
    //切分数据，截取用户点击的url
    val urls = lines.map(x=>(x.split(" ")(6), 1))
    //统计URL点击量
    val result = urls.updateStateByKey(updateFunc, new HashPartitioner(ssc.sparkContext.defaultParallelism), true)
    //将结果打印到控制台
    result.print()
    ssc.start()
    ssc.awaitTermination()
  }
}

猜你喜欢

转载自blog.csdn.net/Peter_Changyb/article/details/85234830

Spark Streaming整合Kafka实现网站点击流实时统计

spark streaming kafka 整合

Spark Streaming整合Kafka

Spark Streaming实时流处理项目3——整合Flume和Kafka完成实时数据采集

Spark Streaming 整合 Kafka（Spark读取Kafka）

Spark Streaming整合kafka实现ExactlyOnce语义

基于Kafka+Spark Streaming+HBase实时点击流案例

Spark Streaming实时流处理笔记（6）—— Kafka 和 Flume的整合

【Spark五十三】Spark Streaming整合Kafka

Spark学习（拾贰）- Spark Streaming整合Kafka

Spark 系列（十六）—— Spark Streaming 整合 Kafka

spark--Spark Streaming整合kafka-★★★★★

[Spark、hadoop]Spark Streaming整合kafka实战

Spark Streaming + Kafka整合实例

Spark Streaming + Kafka整合指南

Flume、Kafka、Spark streaming整合

Spark Streaming整合Kafka（scala）

12 整合Kafka与Spark Streaming

Spark Streaming实时流处理笔记（5）—— Kafka API 编程

java实现kafka整合spark streaming完成wordCount,updateStateByKey完成实时状态更新

kafka+spark streaming+hbase 倒排索引实现实时流搜索引擎

Spark Streaming（下）--实时流计算Spark Streaming实战

Spark Streaming（上）--实时流计算Spark Streaming原理介绍

Spark Streaming实时流处理项目5——Spark Streaming入门

Spark --------Spark Streaming 集成 Kafka

大数据学习——SparkStreaming整合Kafka完成网站点击流实时统计

scala spark-streaming整合kafka （spark 2.3 kafka 0.10）

Spark Streaming实时流之实现黑名单（三）

Spark Streaming实时流之实现黑名单（二）

Spark Streaming实时流之实现黑名单（一）

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)