SparkStreaming消费Kafka数据kafkaRDD转DataSet的小问题 - 代码天地

SparkStreaming消费Kafka数据kafkaRDD转DataSet的小问题

其他 2019-02-23 02:51:06 阅读次数: 0

本文将介绍sparkStreaming直连kafka的方式
1:本来是想直接在foreachRDD的时候把rdd转成DataSetdans
但是kafka的RDD是ConsumerRecord[String, String]类型的，key是offset，partition等等一些信息，value是数据。DataSet其实就相当于一张有scame信息的表val value = rdd.map(rd => rd.value())
spark.createDataset(value)相当于把RDD中的数据都对应到一张表里，这样转是可以的，但是val ds = spark.createDataset(rdd).map(r => r.value())这样先把kafkaRDD转成DataSet再取数据是不行的，会一直报缺少隐式转换的错误，原因应该是DataSet的Row信息无法与KafkaRDD匹配
2:rdd转dataSet还有两种方法种方法
（1）
val rdd: org.apache.spark.rdd.RDD[Row] = null
val schema = StructType(Seq(
StructField(“textField”, StringType, nullable = false))
)
val dataset = SparkSession.builder().getOrCreate().createDataFrame(rdd, schema)
（2） rdd.toDS()

val conf = ...
val ssc = new StreamingContext(conf, Seconds(2)) //conf 和sparkContext都可以创建ssc
val stream = KafkaUtils.createDirectStream(ssc, LocationStrategies.PreferConsistent,
     ConsumerStrategies.Subscribe[String, String](Params.topic, Params.kafkaParams))
val spark = SparkSession
     .builder().config(sparkConf).getOrCreate()
     import spark.implicits._ //使用dataferam 和dataDst必须加
         stream.foreachRDD(rdd => {
  
   val value = rdd.map(rd => rd.value())    
   val ds: Dataset[String] = spark.createDataset(value)   //这里的rdd要转成DataSet必须使用kafkaRDD的value
   ds.foreachPartition(iter => {
     iter.foreach(rdddata => {
       println(rdddata)
     })
   })
 })
 ssc.start()
 ssc.awaitTermination()

猜你喜欢

转载自blog.csdn.net/qq_37923600/article/details/87865967

SparkStreaming消费Kafka数据kafkaRDD转DataSet的小问题

SparkStreaming消费kafka数据

sparkstreaming多consumer消费kafka报错问题

SparkStreaming消费kafka中数据的方式

sparkstreaming数据丢失和重复消费问题

代码问题：用idea写的SparkStreaming和Kafka整合，实时从kafka中消费数据，有错误，望指正。

【sparkStreaming】kafka作为数据源的生产和消费

电影推荐系统项目 SparkStreaming实时消费Kafka数据(十一)

sparkstreaming对接kafka出现的数据积压问题

5. SparkStreaming消费kafka

kafka整合sparkStreaming问题

SparkStreaming读取Kafka数据

SparkStreaming+kafka+redis+hbase从指定offes位置消费kafka的数据

【SparkStreaming学习之四】 SparkStreaming+kafka管理消费offset

SparkStreaming消费Kafka原理及优化t

SparkStreaming踩坑之Kafka重复消费

SparkStreaming消费Kafka的offset的管理方式

SparkStreaming消费Kafka的两种方式

flume整合数据到kafka，sparkStreaming消费数据，并存储到hbase和redis中

sparkstreaming消费kafka数据，如果发生消息积压，如何处理？

SparkStreaming有哪几种方式消费Kafka中的数据，它们之间的区别是什么？

SparkStreaming读取kafka数据的方式

SparkStreaming -Kafka数据源

kafka重复消费和数据丢失问题

Kafka丢数据、重复消费、顺序消费的问题

SparkStreaming消费kafka记录偏移量的方式

SparkStreaming消费Kafka中的数据使用zookeeper和MySQL保存偏移量的两种方式

【BUG】使用jdk11，scala2.12时，SparkStreaming消费Kafka数据会报错java序列化错误

SparkStreaming消费Kafka数据手动提交偏移量维护在自定义环境的方式

kafka重复消费问题

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)