SparkCore快速入门及介绍 - 代码天地

SparkCore快速入门及介绍

其他 2020-04-12 14:47:02 阅读次数: 0

什么是RDD

弹性、分布式、数据集（数据存储在内存）
弹性的，RDD中的数据可以保存在内存中或磁盘里面
分布式存储，可以用于分布式计算
集合，可以存放很多元素
一个不可变，可分区，里面的元素可并行计算的集合

RDD的主要属性

数据集的基本组成但是一个组分片或一个分区列表，每个分片都会被一个计算任务处理，分区数量决定并发度。用户可以在创建RDD是指定RDD的分片个数，如果没有指定，那么久采用默认值（cpu 盒数）
一个函数会被作用在每一个分区。spark中RDD的计算一分区为单位，函数会被作用到每个分区上
一个RDD会被依赖于其他对多个RDD。RDD的每次转换都会生成一个新的RDD,所以RDD之间就会形成类型与流水线样的前后依赖关系。在部分分区数据丢失是，spark可以通过可以依赖重新计算丢失的分区数据，而不是对RDD的所有分区进行重新计算。
KV类型的RDD会有一个partitioner函数非kay-value的RDD的partitioner的值是None,partitioner函数决定了RDD本身的分区数量，也决定了Parent RDD shuffle 输出的分区数量
每个RDD 维护一个列表，每个partition 的位置存储在一个列表中。

RDD的方法/算子分类

RDD的算子分为两类：

Tarnsformation 转换操作：返回一个新的RDD
Action 动作操作：返回不是RDD(无返回值或其他的)

如何理解spark惰性计算？

RDD中的所以转换都是惰性/延迟执行的，也就是或并不会直接计算。
遇到Action动作，这些转换才真的运行。

之所以使用惰性求值/延迟执行，是因为这样可以在Action是对RDD操作形成DAG有向无环图进行stage的划分和并行优化，这样设置让spark更加有效运行

lhh学bg

发布了88 篇原创文章 · 获赞 99 · 访问量 21万+

私信关注

猜你喜欢

转载自blog.csdn.net/qq_43791724/article/details/105313666

SparkCore快速入门及介绍

SparkCore快速入门系列（5）

SparkSQL介绍及快速入门

SparkCore

MyBatis基本介绍&快速入门

快速入门kafka① Kafka介绍

爬虫快速入门——爬虫介绍

Spring介绍和快速入门

TensorRt（2）快速入门介绍

SpringMVC使用介绍-快速入门

elementui快速入门详细介绍

快速入门Flink SQL —— 介绍及入门

快速入门Scala：Scala介绍与环境搭建

mybatis介绍和mybatis快速入门

Netty快速入门（08）ByteBuf组件介绍

Netty快速入门（09）channel组件介绍

Netty快速入门（06）Netty介绍

Maven快速入门 - 介绍及环境搭建

HTML快速入门和基础标签的介绍

快速入门Scala① 介绍及开发环境安装

Spring介绍与快速入门（学习笔记）

《Hyperledger Fabric快速入门》专栏介绍

RabbitMQ快速入门 - 基本概念介绍

scyther工具介绍（快速入门教程）

Pinia 保姆级快速入门介绍文章

Golang channle （管道）基本介绍、快速入门

[Mybatis1]介绍与快速入门

MyBatis基本介绍及快速入门案例

SparkCore-RDD的概述，特性，核心属性，执行原理介绍

Spark学习之路【SparkCore入门解析 ②RDD编程】

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)