Spark将RDD转换成DataFrame的两种方式 - 代码天地

Spark将RDD转换成DataFrame的两种方式

企业开发 2018-05-10 02:37:22 阅读次数: 0

介绍一下Spark将RDD转换成DataFrame的两种方式。
1.通过是使用case class的方式，不过在scala 2.10中最大支持22个字段的case class,这点需要注意
2.是通过spark内部的StructType方式，将普通的RDD转换成DataFrame
装换成DataFrame后，就可以使用SparkSQL来进行数据筛选过滤等操作

下面直接代码说话

package spark_rdd

import org.apache.spark._
import org.apache.spark.sql._
import org.apache.spark.sql.types._

object SparkRDDtoDF {
  
  //StructType and convert RDD to DataFrame
  def rddToDF(sparkSession : SparkSession):DataFrame = {
    //设置schema结构
    val schema = StructType(
      Seq(
        StructField("name",StringType,true)          
        ,StructField("age",IntegerType,true)
      )
    )
    val rowRDD = sparkSession.sparkContext
      .textFile("file:/E:/scala_workspace/z_spark_study/people.txt",2)
      .map( x => x.split(",")).map( x => Row(x(0),x(1).trim().toInt))  
    sparkSession.createDataFrame(rowRDD,schema)
  }
  
  //use case class Person
  case class Person(name:String,age:Int)
  def rddToDFCase(sparkSession : SparkSession):DataFrame = {
    //导入隐饰操作，否则RDD无法调用toDF方法
    import sparkSession.implicits._
    val peopleRDD = sparkSession.sparkContext
      .textFile("file:/E:/scala_workspace/z_spark_study/people.txt",2)
      .map( x => x.split(",")).map( x => Person(x(0),x(1).trim().toInt)).toDF()
    peopleRDD
  }
  
  def main(agrs : Array[String]):Unit = {
      val conf = new SparkConf().setMaster("local[2]")
      conf.set("spark.sql.warehouse.dir","file:/E:/scala_workspace/z_spark_study/")
      conf.set("spark.sql.shuffle.partitions","20")
      val sparkSession = SparkSession.builder().appName("RDD to DataFrame")
            .config(conf).getOrCreate()
       //通过代码的方式,设置Spark log4j的级别
      sparkSession.sparkContext.setLogLevel("WARN")
      import sparkSession.implicits._
      //use case class convert RDD to DataFrame
      //val peopleDF = rddToDFCase(sparkSession)
      
      //use StructType  convert RDD to DataFrame
      val peopleDF = rddToDF(sparkSession)
      peopleDF.show()
      peopleDF.select($"name",$"age").filter($"age">20).show()
      
  }
  
}

猜你喜欢

转载自zhao-rock.iteye.com/blog/2328161

Spark RDD转换成DataFrame的两种方式

Spark将RDD转换成DataFrame的两种方式

RDD转换成DataFrame的两种方式

Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）

RDD转换成DataFrame的2种方式

RDD转换为DataFrame的两种方式及spark sql的简单实例

Spark 读写 HBase 的两种方式（RDD、DataFrame）

Spark RDD和DataSet与DataFrame转换成RDD

Spark DataFrame及RDD与DataSet转换成DataFrame

Spark DataSet和RDD与DataFrame转换成DataSet

11.4 使用反射的方式将RDD转换成为DataFrame

SparkSQL创建RDD：<3>通过反射的方式将非json格式的RDD转换成DataFrame【Java，Scala纯代码】

配置sparksql读hive，dataframe和RDD，将RDD转换成Dataframe，视图，withcolumn

Spark DataFrame将所有列的类型转换成另外一种类型

java把汉字转换成拼音的2种方式 java程序将汉字转成拼音的两种方法

RDD转换成为DataFrame

DataFrame和RDD互操作的两种方式：

RDD转DataFrame常用的两种方式

详解Go开发Struct转换成map两种方式比较

Go开发Struct转换成map两种方式比较

golang 开发 Struct 转换成 map 两种方式比较

C++中将string转换成int的两种方式

SparkSQL创建RDD：<4>动态创建Schema将非json格式的RDD转换成DataFrame【Java，Scala纯代码】

SparkSQL-02 RDD转换DF的两种方式

C#将Word转换成PDF方法总结(基于Office和WPS两种方案)

Django将数据库查询数据QuerySet转换成JSON格式（ORM和SQL两种情况）

怎样将录音转换成文字？两种简单方法任你选

Java Spark之创建RDD的两种方式和操作RDD

PDF怎么转换成word？分享两种PDF转换操作

PDF怎么转换成word？两种简单的PDF转换方法分享

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)