RDD的Lineage血统 - 代码天地

RDD的Lineage血统

其他 2019-12-18 15:34:17 阅读次数: 0

1、RDD血统：数据容错，发生错误，可以进行重算恢复。Lineage记录的是特定数据的 Transformation 转换操作。

　　为了保证RDD中数据的鲁棒性，RDD数据集通过所谓的血统关系(Lineage)记住了它是如何从其它RDD中演变过来的。

　　相比其它系统的细颗粒度的内存数据更新级别的备份或者LOG机制，RDD的Lineage记录的是粗颗粒度的特定数据转换（Transformation）操作（filter, map, join etc.)行为。当这个RDD的部分分区数据丢失时，它可以通过Lineage获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型，限制了Spark的运用场合，但同时相比细颗粒度的数据模型，也带来了性能的提升

2、宽窄依赖的Lineage容错

对与Wide Dependencies，这种计算的输入和输出在不同的节点上，lineage方法对与输入节点完好，而输出节点宕机时，通过重新计算，这种情况下，这种方法容错是有效的，否则无效，因为无法重试，需要向上其祖先追溯看是否可以重试（这就是lineage，血统的意思）。

Narrow Dependencies对于数据的重算开销要远小于Wide Dependencies的数据重算开销。

在RDD计算，通过checkpoint进行容错，做checkpoint有两种方式，一个是checkpoint data，一个是logging the updates。用户可以控制采用哪种方式来实现容错，默认是logging the updates方式，通过记录跟踪所有生成RDD的转换（transformations）也就是记录每个RDD的lineage（血统）来重新计算生成丢失的分区数据。

参考博客：https://blog.csdn.net/u013063153/article/details/73865123

猜你喜欢

转载自www.cnblogs.com/guoyu1/p/12060016.html

RDD的Lineage血统

Spark中的Lineage血统

关于spark RDD trans action算子、lineage、宽窄依赖详解

（RDD）Lineage 血缘关系和 Dependence 依赖关系

Lineage OS 的过渡

汉人血统详实资料

rdd

Lineage Logistics与Turvo合作推出Lineage Link(R)

Airflow 中文文档：Lineage

【题解】American Heritage美国血统

Lineage Logistics在西班牙马德里设立总部

互联网血统的MQ系统

“Linkedin”是有SNS血统的分类垂直网站？

30个有皇室血统的姓氏

USACO 3.4 American Heritage 美国血统

CometOJ C0358 [USACO]美国血统

P1827 美国血统 American Heritage

RDD编程--创建RDD

nexus 10 救砖安装lineage OS 15 并 root

Lineage17OS 中的一些定制及方法

Lineage物流宣布委任新首席财务官

Machine Learning(一):基于 TensorFlow 实现宠物血统智能识别

【USACO3-4-1】美国血统模拟

洛谷P1827 美国血统 American Heritage

检测一个App是不是有UWP血统

每日一题----美国血统 American Heritage（4.12）

Spark RDD

RDD详解

RDD简介

rdd相关

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)