spark弹性分布式数据集基本操作

企业开发 2018-05-09 20:57:01 阅读次数: 2

一、spark和hadoop的区别

① hadoop和spark都是大数据框架，彼此执行的任务并不相同，也并不排斥；

② spark使用分布式内存计算及流处理方式，在速度上有明显优势；

③ spark大部分操作都是在内存中，

而hadoop的MapReduce系统会在每次操作之后将所有数据写回到物理存储介质上；

④ spark本身没有一个分布式存储系统，

因此，许多大数据项目都将spark安装在hadoop上，

这样，spark程序就能直接使用HDFS上的数据；

⑤ spark有自己的机器学习库MLib，

而hadoop系统则需要借助第三方机器学习库，如：Apache Mahout；

⑥ 总的来说，hadoop MapReduce引爆了大数据产业革命，spark则是对其的改进；

二、spark弹性分布式数据集基本操作

1 弹性分布式数据集

RDD，弹性分布式数据集，是spark对分布式数据和计算的基本抽象。

2 RDD操作

2.1 map()操作

rdd.map(x => x+1)

2.2 flatmap()操作

rdd.flatmap(x => x.to(3))

2.3 filter()操作

rdd.filter(x => x!=1)

2.4 distinct()操作

rdd.distinct()

2.5 union()操作

返回一个包含两个RDD中所有元素的RDD

RDD1.union(RDD2)

2.6 intersection()操作

返回两个RDD都有的元素

① 性能比较差；

② 将所有数据通过网络进行混洗，发现共有的元素；

RDD1.intersection(RDD2)

2.7 subtract()操作

排除RDD2中存在的元素

① 性能较差；

② 需要数据混洗；

RDD1.subtract(RDD2)

2.8 笛卡儿积操作

① 所有可能组合；如：各用户对各种产品的预期兴趣程度

② 求用户相似度；如：求一个RDD与自身的笛卡儿积

③ 求大规模笛卡儿积，开销巨大；

RDD1.cartesion(RDD2)

猜你喜欢

转载自hyy044101331.iteye.com/blog/2335941

spark弹性分布式数据集基本操作

【Spark】弹性分布式数据集RDD及其操作

RDD弹性分布式数据集的基本操作

Spark2.X 分布式弹性数据集

Spark RDD：弹性分布式数据集

spark-RDD(弹性分布式数据集)

Spark学习之弹性分布式数据集RDD

spark三大弹性分布式数据集比较

Spark RDD基础实战(弹性分布式数据集)

Spark之RDD(弹性分布式数据集) 详解

Spark RDD弹性分布式数据集

弹性分布式数据集的介绍及操作

弹性分布式数据集(RDD)

RDD（弹性分布式数据集）

【Spark】Spark核心之弹性分布式数据集RDD

新闻实时分析系统 Spark2.X分布式弹性数据集

分布式弹性数据集助力spark，提升运行效率

SparkRDD之弹性分布式数据集RDD

RDD（弹性分布式数据集）的分析

[2] - 弹性分布式数据集RDD

深入理解RDD弹性分布式数据集

RDD---弹性分布式数据集

Spark通过读文件构建DataFrame数据模型(java版)--RDD弹性分布式数据集

spark分布式数据集RDD 的创建

新闻网大数据实时分析可视化系统项目——17、Spark2.X分布式弹性数据集

大数据技术学习：弹性分布式数据集RDD

好程序员大数据学习路线分享弹性分布式数据集RDD

【PySpark学习笔记一】弹性分布式数据集RDD

弹性分布式数据集：基于内存集群计算的容错抽象

好程序员分享干货弹性分布式数据集RDD

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

OOP第二次作业

java web 乱码问题

android 禁止scrollview 因控件变化自动滚动到底的方法

mysql服务解压版的安装(5.7)

centos7 nginx+tomcat配置https 安装免费SSL Let’s Encrypt

使用Mosquitto遗嘱机制实现感知客户端上下线功能的方法

面向对象之------多态与多态性

开发Teams Tabs应用程序

C# 希尔排序

第2章 Jupyter Notebooks

每日归档

更多

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)