Spark的DataFrame创建实例

其他 2019-04-18 00:00:51 阅读次数: 0

版权声明：版权声明中 https://blog.csdn.net/lds_include/article/details/89300074

Spark的DataFrame创建实例

说明

是一个分布式数据集（是一个数据描述），封装了RDD和Schema信息，底层还是调用的RDD，我们可以像操作二维表的方式进行操作，简单来说，DataFream就是RDD和Schema信息的结合体

什么是DataFrames

与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。由于与R和Pandas的DataFrame类似，Spark DataFrame很好地继承了传统单机数据分析的开发体验。

创建一个DataFrames

创建文件

在本地创建一个文件，有三列，分别是id、name、age，用空格分隔，然后上传到hdfs上

hdfs dfs -put person.txt/

生成RDD

在spark shell执行下面命令，读取数据，将每一行的数据使用列分隔符分割

val lineRDD = sc.textFile("hdfs://min1:9000/person.txt").map(_.split(" "))

定义匹配类

定义case class（相当于表的schema）

case class Person(id:Int, name:String, age:Int)

关联数据

将RDD和case class关联

val personRDD = lineRDD.map(x => Person(x(0).toInt, x(1), x(2).toInt))

生成DataFrame

将RDD转换成DataFrame

val personDF = personRDD.toDF

显示

对DataFrame进行处理

personDF.show

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/lds_include/article/details/89300074

Spark的DataFrame创建实例

Spark创建空的DataFrame

Spark之DataFrame创建

spark创建空dataframe

Spark创建DataFrame的几种方式

spark 通过传入List 创建DataFrame

Spark SQL中创建 DataFrame 方法

Spark创建SparkSession，dataframe常用操作

大数据之Spark Sql（二）：DataFrame、创建DataFrame、DataFrame API实现

Spark DataFrame

【Spark】DataFrame

Spark学习实例(Python)：RDD、DataFrame、DataSet相互转换

Spark 中 DataFrame的三种创建方式

【Spark篇】---SparkSQL初始和创建DataFrame的几种方式

Spark SQL（二十一）DataFrame、DataSet的创建

Spark创建DataFrame的三种方法

Spark 创建RDD、DataFrame各种情况的默认分区数

spark-sql创建DataFrame/DataSets的几种方式

Spark通过三种方式创建DataFrame

Spark DataFrame 与Pandas DataFrame差异

创建DataFrame

DataFrame的创建

SparkSQL创建RDD：创建DataFrame的方式，配置Spark on Hive【文字说明+关键代码】

Spark-Spark SQL and DataFrame

spark - DataFrame Api 练习

spark - RDD转成DataFrame

基于spark的DataFrame实战

spark dataframe 转成 dataset

Spark DataFrame vs Dataset

spark SQL and DataFrame(一)

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)