大数据学习——SparkStreaming整合Kafka完成网站点击流实时统计 - 代码天地

大数据学习——SparkStreaming整合Kafka完成网站点击流实时统计

其他 2019-06-13 19:24:49 阅读次数: 0

1.安装并配置zk

2.安装并配置Kafka

3.启动zk

4.启动Kafka

5.创建topic

[root@mini3 kafka]# bin/kafka-console-producer.sh --broker-list mini1:9092 --topic cyf-test

程序代码

package org.apache.spark

import java.net.InetSocketAddress

import org.apache.spark.HashPartitioner
import org.apache.spark.SparkConf
import org.apache.spark.storage.StorageLevel
import org.apache.spark.streaming.Seconds
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.flume.FlumeUtils
import org.apache.spark.streaming.kafka.KafkaUtils

object KafkaWordCount {

  val updateFunction = (iter: Iterator[(String, Seq[Int], Option[Int])]) => {
    iter.flatMap { case (x, y, z) => Some(y.sum + z.getOrElse(0)).map(v => (x, v)) }
  }

  def main(args: Array[String]) {
    val conf = new SparkConf().setMaster("local[2]").setAppName("KafkaWordCount")
    val ssc = new StreamingContext(conf, Seconds(5))
    //回滚点设置在本地
//    ssc.checkpoint("./")
    //将回滚点写到hdfs
    ssc.checkpoint("hdfs://mini1:9000/kafkatest")

    //val Array(zkQuorum, groupId, topics, numThreads) = args
    val Array(zkQuorum, groupId, topics, numThreads) = Array[String]("mini1:2181,mini2:2181,mini3:2181", "g1", "cyf-test", "2")
    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap
    val lines = KafkaUtils.createStream(ssc, zkQuorum, groupId, topicMap).map(_._2)
    val results = lines.flatMap(_.split(" ")).map((_, 1)).updateStateByKey(updateFunction, new HashPartitioner(ssc.sparkContext.defaultParallelism), true)


    results.print()
    ssc.start()
    ssc.awaitTermination()
  }

}

记一次遇到的问题 https://www.cnblogs.com/feifeicui/p/11018761.html

猜你喜欢

转载自www.cnblogs.com/feifeicui/p/11018774.html

大数据学习——SparkStreaming整合Kafka完成网站点击流实时统计

Spark Streaming整合Kafka实现网站点击流实时统计

大数据学习——网站点击流数据平台开发

【大数据学习篇11】广告点击流实时统计

大数据实时阶段----【Spark04之sparkStreaming整合flume、sparkStreaming整合kafka (★★★★★)】

大数据学习之路96-SparkStreaming整合Kafka

基于Kafka+SparkStreaming+HBase实时点击流案例

sparkstreaming整合kafka实时流处理的pom文件模板

Spark Streaming实时流处理项目3——整合Flume和Kafka完成实时数据采集

网站点击流数据分析

实时大数据平台搭建Flume+Kafka+HDFS+SparkStreaming

06.网站点击流数据分析项目_模块开发_统计分析

【网站点击流数据分析】07-统计分析

大数据案例分享《网站点击量排名统计分析》

大数据实时流统计实战

38.大数据之旅——网站流量统计项目之实时业务系统(Kafka,storm,Hbase)

SparkStreaming 实时计算广告点击流量实时统计需求技术方案数据库设计

整合Flume和kafka完成实时数据采集

Flume整合Kafka完成实时数据采集

基于Hadoop生态SparkStreaming的大数据实时流处理平台的搭建

大数据入门第二十四天——SparkStreaming（2）与flume、kafka整合

Java版SparkStreaming读取Kafka实现实时的单词统计

代码问题：用idea写的SparkStreaming和Kafka整合，实时从kafka中消费数据，有错误，望指正。

大数据学习之Storm实时统计网站访问量案例35

2019最新某某《大数据实时流统计实战》

【大数据】SparkStreaming学习笔记

【网站点击流数据分析】09-工作流调度

Flume+Kafka+Storm+Redis构建大数据实时处理系统：实时统计网站PV、UV+展示

[转]Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

kafka整合sparkStreaming

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)