Spark | RDD - 代码天地

Spark | RDD

其他 2018-07-15 21:49:50 阅读次数: 0

RDD(resilient distribute Datasets) 弹性分布式数据集

主要从弹性、分布式这都是在用户透明情况下存在的

分布式：一个RDD分布式存储在不同partition，从某种意义也就是不同节点

弹性：单个partiton，并不一定都是内存中，如果内存不够，会将部分写到磁盘

需要格外说的是RDD是具有容错性的，当节点故障导致数据丢失，RDD会自动通过数据来源重新计算
输入：HDFS Hive
输出：HDFS Hive Mysql……
SaprkCore就是对RDD进行多种多样的算子操作(map reduce filter等)，对RDD循环往复（这个往复是相对MR只能一次M R而言，可以对RDD进行多次操作）
SparkSQL等组件都是围绕RDD这个数据结构

猜你喜欢

转载自blog.csdn.net/jh_zhai/article/details/80830508

Spark RDD

[Spark]-RDD

Spark | RDD

spark==RDD

spark --RDD

spark的RDD

【Spark】RDD

Spark RDD :Spark API--Spark RDD

spark RDD和RDD算子

Spark（三）Spark RDD编程

[Spark学习] Spark RDD详解

Spark RDD核心详解

Spark简介及RDD说明

Spark基础 | RDD编程

SPARK RDD编程指南

spark - RDD持久化

spark - RDD转成DataFrame

spark - RDD梳理

【spark】RDD创建

【spark】RDD操作

Spark RDD特点

Spark之RDD基础

理解Spark的核心RDD

Spark基础-RDD编程

spark RDD的理解

Spark RDD详解

spark学习之RDD

Spark RDD操作总结

Spark 键值对RDD操作

Spark学习——RDD

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)