spark三大弹性分布式数据集比较 - 代码天地

spark三大弹性分布式数据集比较

其他 2018-08-27 20:28:13 阅读次数: 0

三大弹性分布式数据集：RDD，DataFrame，Dataset 为高效处理超大型数据提供便利

RDD

优点：

1、编译类型安全：编译时就能检查类型错误

2、面向对象：直接通过类名.的方式操作数据

缺点：

1、序列化和反序列化开销大：无论是集群间通信还是IO操作都需对对象的结构和数据进行序列化和反序列化

2、GC的性能开销大：频繁的创建和销毁对象，增加GC

DataFrame

DataFrame引入了schema和offheap

1、schema：RDD每一行的数据结构都一样，这个结构存在schema中，spark通过schema就能读懂数据，因此在通信和IO时，就需序列和反序列化数据，而结构可省略

2、off-heap：意味着JVM以外的内存，这些内存直接受操作系统而非JVM，spark能以二进制形式序列化数据（不包括结构）到off-heap中当操作数据时，就直接操作off-heap内存，由于spark理解schema，所以知道该如何操作

总结：off-heap就像地盘，schema就像地图，spark有了地图和地盘就不再受JVM限制，也不再受GC困扰，通过schema和off-heap，DataFrame解决了RDD的缺点

缺点：DataFrame不是类型安全的，API也不是面向对象风格

DataSet

结合RDD和DataFrame优点，并加入Encoder概念，当序列化数据时，Encoder产生字节码与off-heap交互，能达到按需访问数据的效果，而不是反序列化整个对象

猜你喜欢

转载自blog.csdn.net/weixin_42744795/article/details/82026459

spark三大弹性分布式数据集比较

Spark2.X 分布式弹性数据集

spark弹性分布式数据集基本操作

Spark RDD：弹性分布式数据集

spark-RDD(弹性分布式数据集)

Spark学习之弹性分布式数据集RDD

【Spark】弹性分布式数据集RDD及其操作

Spark RDD基础实战(弹性分布式数据集)

Spark之RDD(弹性分布式数据集) 详解

Spark RDD弹性分布式数据集

弹性分布式数据集(RDD)

RDD（弹性分布式数据集）

【Spark】Spark核心之弹性分布式数据集RDD

新闻实时分析系统 Spark2.X分布式弹性数据集

分布式弹性数据集助力spark，提升运行效率

SparkRDD之弹性分布式数据集RDD

RDD（弹性分布式数据集）的分析

[2] - 弹性分布式数据集RDD

RDD弹性分布式数据集的基本操作

弹性分布式数据集的介绍及操作

深入理解RDD弹性分布式数据集

RDD---弹性分布式数据集

Spark通过读文件构建DataFrame数据模型(java版)--RDD弹性分布式数据集

Hadoop，Spark和Storm三大分布式计算系统简介及比较

Spark 系列（三）—— 弹性式数据集 RDDs

Spark 系列（三）—— 弹性式数据集RDDs

spark分布式数据集RDD 的创建

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集

大数据：pyspark模块，spark core的RDD，RDD是弹性分布式数据抽象对象，RDD五大特性，wordcount案例展示RDD

大数据技术学习：弹性分布式数据集RDD

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)