spark接收kafka数据，进行WordCount - 代码天地

spark接收kafka数据，进行WordCount

其他 2019-04-18 15:00:05 阅读次数: 0

package kafka

import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.kafka010._

import scala.collection.mutable

//1.打开zk,kafka。2.启动kafka-connect(source部分)3.运行此文件
object DirectKafka {
  def main(args: Array[String]): Unit = {
    if (args.length < 2) {
      System.err.println(
        s"""
           |Usage: DirectKafkaWordCount <brokers> <topics>
           |  <brokers> is a list of one or more Kafka brokers
           |  <topics> is a list of one or more kafka topics to consume from
           |
        """.stripMargin)
      System.exit(1)
    }
    val Array(brokers,topics)=args

    var conf = new SparkConf()
      .setAppName("DirectKafka")
      .setMaster("local[2]")

    val ssc = new StreamingContext(conf, Seconds(2))

    val topicsSet=topics.split(",").toSet
    val kafkaParams=mutable.HashMap[String,String]()
    //必须添加以下参数，否则会报错
    kafkaParams.put("bootstrap.servers" ,brokers)
    kafkaParams.put("group.id", "group1")
    kafkaParams.put("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
    kafkaParams.put("value.deserializer" , "org.apache.kafka.common.serialization.StringDeserializer")
    val messages=KafkaUtils.createDirectStream [String,String](
      ssc,
      LocationStrategies.PreferConsistent,
      ConsumerStrategies.Subscribe[String,String](topicsSet,kafkaParams
      )
    )
    // Get the lines, split them into words, count the words and print
    val lines = messages.map(_.value)
    val words = lines.flatMap(_.split(" "))
    val wordCounts = words.map(x => (x, 1L)).reduceByKey(_ + _)
    wordCounts.print()

    // Start the computation
    ssc.start()
    ssc.awaitTermination()

  }
}

maven依赖一定要跟Scala版本一致，否则执行代码会报错：

<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka-0-10 -->
<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka-0-10_2.12</artifactId>
    <version>2.4.0</version>
</dependency>

猜你喜欢

转载自blog.csdn.net/JHC_binge/article/details/87940987

spark接收kafka数据，进行WordCount

Spark Streaming消费Kafka的数据进行统计

spark streaming 接收kafka数据写入Hive分区表

Spark-streaming kafka数据接收两种方式

kafka（六）：与spark streaming对接，spark streaming接收kafka数据源

使用scala开发spark streaming程序消费kafka的数据--wordcount程序

IntelliJ进行Spark编程之WordCount

Flink读取Kafka数据，进行流处理APi操作（wordcount，分流，合流）

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（二十二）Spark Streaming接收流数据及使用窗口函数

spark的学习（1）之使用spark进行WordCount词数统计

Spark Streaming 结合 Kafka 两种不同的数据接收方式比较

Spark-streaming kafka数据接收两种方式对比

Spark Streaming连接Kafka的两种方式 direct 跟receiver 方式接收数据的区别

Spark WordCount

Spark的WordCount

spark中wordcount执行的数据流向

Spark 消费Kafka数据

SparkStreaming（9）：实例-Streaming整合Spark SQL，进行wordcount功能

Storm 编程实例一：生成及接收数据+实例二：wordcount

进行Spark，Kafka针对Kerberos相关配置

基于Spark Streaming + Canal + Kafka对Mysql增量数据实时进行监测分析

spark处理数据写入kafka

Spark写数据到kafka

Spark Streaming分析Kafka数据

大数据spark整合kafka

kafka+flink实现wordCount及数据写入mysql

flume接收kafka数据存储到hdfs

Logstash接收Kafka数据写入至ES

kafka接收外部接口的数据，并实现转发

2 大数据实战系列-spark shell wordcount

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)