spark的rdd分析 - 代码天地

spark的rdd分析

编程语言 2018-09-24 17:23:27 阅读次数: 0

在这里插入图片描述以一个简单的wc(单词计数)程序为例

val rdd = sc.textFile("file:///root/wc").flatMap(_.split(" ")).map(_,1).reduceByKey(_,_).saveAsTextFile("file:///root/wc00")

上面单词计数总共产生6个rdd
可以执行下面语句查询
rdd数量查询

rdd.toDebugString

rdd依赖查询

rdd.dependencies

textFile会产生两个rdd,第一个是hadoopRdd(k,v形式),第二个是MapPatitionsRdd
flatMap产生一个rdd是MapPatitionsRdd
map产生一个rdd是MapPatitionsRdd
reduceByKey产生ShuffledRdd(把数据从上游拉过来进行聚合)
saveAsTextFile产生MapPatitions
RDD缓存
spark运算非常快的原因之一就是在不同操作中可以在内存中持久化或者缓存整个数据集
比如:
val rdd=sc.textFile(“hdfs://192.168.1.101:9000/root/wc/input.txt”).cache()
#cache不是立即缓存也是一个转换动作(延迟加载)
#查看192.168.1.101:4040/job
persist()也是缓存需要输入入参StorageLevel,缓存级别(可以根据文件重要情况缓存1-2份)
用完后记得清除缓存
rdd.unpersist(true)

猜你喜欢

转载自blog.csdn.net/qq_16563637/article/details/82812952

spark的rdd分析

spark-RDD源码分析

spark源码分析之RDD

Spark源码分析4-RDD computor

Spark2.0-RDD分区原理分析

Spark核心编程-RDD操作原理分析

Spark-RDD之Partition源码分析

Spark RDD实现电影流行度分析

Spark基础学习笔记22：Spark RDD案例分析

Spark基础学习笔记：Spark RDD案例分析

Spark RDD

[Spark]-RDD

Spark | RDD

spark --RDD

spark==RDD

spark的RDD

【Spark】RDD

spark2原理分析-RDD的实现框架分析

spark2原理分析-RDD的checkepointing原理分析

spark2原理分析-RDD的Transformations原理分析

spark2原理分析-RDD的Partitioner原理分析

spark2原理分析-RDD的依赖(Dependencies)原理分析

Spark RDD :Spark API--Spark RDD

【Spark】源码分析之RDD的生成及stage的切分

用Spark rdd进行针对性权重的分析

spark2原理分析-RDD的shuffle简介

Apache Spark之RDD算子分析(章节三)

Spark textFile生成task数目和RDD的数目分析

spark RDD和RDD算子

Spark（三）Spark RDD编程

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

Java基础复习_day13_Collection集合

2018.11.16 c语言学习经验

且看Java内置四大核心函数式接口

小程序云开发中数据库的数据分段和显示图片

python的函数

Web-JS进阶

【干货】C++常用代码积累笔记大全

Spring的ioc操作与 IOC底层原理

构建之法20191121-11 Scrum立会报告+燃尽图 07

Spring boot之Hello World访问404

每日归档

更多

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)