SparkSQL编程之DataFrame与DataSet的互操作

其他 2019-05-14 09:00:56 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/m0_37294838/article/details/90199146

1. DataFrame转换为DataSet

1）创建一个DateFrame

scala> val df = spark.read.json("examples/src/main/resources/people.json")

df: org.apache.spark.sql.DataFrame = [age: bigint, name: string]

2）创建一个样例类

scala> case class Person(name: String, age: Long)

defined class Person

3）将DateFrame转化为DataSet

scala> df.as[Person]

res14: org.apache.spark.sql.Dataset[Person] = [age: bigint, name: string]

2. DataSet转换为DataFrame

1）创建一个样例类

scala> case class Person(name: String, age: Long)

defined class Person

2）创建DataSet

scala> val ds = Seq(Person("Andy", 32)).toDS()

ds: org.apache.spark.sql.Dataset[Person] = [name: string, age: bigint]

3）将DataSet转化为DataFrame

scala> val df = ds.toDF

df: org.apache.spark.sql.DataFrame = [name: string, age: bigint]

4）展示

scala> df.show

+----+---+

|name|age|

+----+---+

|Andy| 32|

+----+---+

DataSet转DataFrame

这个很简单，因为只是把case class封装成Row

（1）导入隐式转换

import spark.implicits._

（2）转换

val testDF = testDS.toDF

DataFrame转DataSet

（1）导入隐式转换

import spark.implicits._

（2）创建样例类

case class Coltest(col1:String,col2:Int)extends Serializable //定义字段名和类型

（3）转换

val testDS = testDF.as[Coltest]

这种方法就是在给出每一列的类型后，使用as方法，转成Dataset，这在数据类型是DataFrame又需要针对各个字段处理时极为方便。在使用一些特殊的操作时，一定要加上 import spark.implicits._ 不然toDF、toDS无法使用。

猜你喜欢

转载自blog.csdn.net/m0_37294838/article/details/90199146

SparkSQL编程之DataFrame与DataSet的互操作

SparkSQL编程之DataSet以及DataFrame与DataSet的互操作

SparkSQL编程之RDD、DataFrame、DataSet

SparkSQL编程之RDD、DataFrame、DataSet区别与共性

SparkSQL编程之DataSet

SparkSQL编程之DataFrame

Spark之【SparkSQL编程】系列(No2)——《DataSet概念入门以及与DataSet的互操作》

Spark之【SparkSQL编程】系列(No2)——《DataSet概念入门以及与DataSet的互操作》

SparkSQL编程之DataFrame详解

SparkSql中DataFrame与json、csv、mysql、hive数据的互操作

SparkSQL| RDD&DataFrame&DataSet

SparkSQL快速入门DataFrame与DataSet

SparkSQL 核心编程（DataSet）

Update：sparksql：第3节 Dataset (DataFrame) 的基础操作 & 第4节 SparkSQL_聚合操作_连接操作

SparkSQL 核心编程（DataFrame）

【sparkSQL】DataFrame的常用操作

SparkSQL的DataFrame常用操作

Spark05-SparkSQL入门（DataFrame DataSet）

SparkSQL使用IDEA快速入门DataFrame与DataSet

SparkSql:数据抽象（DataFrame与DataSet详解）

33-SparkSql的介绍、DataFrame和DataSet

大数据：sparkSQL，历史，DataSet，DataFrame，sparkSession

Spark之【SparkSQL编程】系列(No3)——《RDD、DataFrame、DataSet三者的共性和区别》

SparkSql涉及到的RDD、DataSet、DataFrame之间的互相装换操作

SparkSQL 中 RDD 、DataFrame 、DataSet 三者的区别与联系

入门大数据---SparkSQL_Dataset和DataFrame简介

SparkSQL之RDD丶DataFrame丶DataSet介绍

SparkSQL DataSet

SparkSQL（四）DataFrame基本API的操作

Spark——DataFrame与RDD互操作方式

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)