Spark的shell界面操作

目录

HADOOP和Spark生态圈

bin 目录下spark-shell  命令进入

Spark Shell  中算子的操作  (转换算子和执行算子)

单节点基于standload的进入方式

单节点基于yarn调度的进入方式


HADOOP和Spark生态圈

bin 目录下spark-shell  命令进入

Spark Shell  中算子的操作  (转换算子和执行算子)

 
Tansformation算子/函数    延迟执行   转换算子
1、map     窄依赖
2、filter     窄依赖
3、flatMap  窄依赖
4、coalesce         (分区数,true)  rdd7.partitions.size   查看rdd的分区数     val rdd5=rdd4.coalesce(3,true)
5、repartition      (分区数)     不存在 shuffle     val rdd5=rdd4.repartition(4)
6、groupByKey() RDD[String,Iterable(Int)]
7、reduceBykey(_+_) val rdd8=rdd7.reduceByKey(_+_)     宽依赖
8、sortBykey()   根据K排序,要求RDD 中必须是KV的,宽依赖
9、sortBy(_._2,false)  以value排序,进行倒序排序
10、coalesce  可以增加分区,可以减少分区,有shuffle  所以是宽依赖
repartition   可以增加分区,可以减少分区,有shuffle  所以是宽依赖  分区
 
Action                        立刻执行  行动算子
1、collect
2、sum()    返回Double类型
3、rdd15.reduce(_+_)    返回的是int类型
4、rdd15.take(N)      取前N位
     rdd1.takeOrdered(N)   升序排好序之后 取前N位
     rdd1.top(N)                  降序 排好序之后 取前N位
     rdd1.first                      直接取出来首位
     rdd1.count                    查看rdd中有多少元素
 

单节点基于standload的进入方式

spark/bin 目录下   ./spark-shell   回车 
 

单节点基于yarn调度的进入方式

spark/bin 目录下   spark-shell --master yarn-client    进yarn spark  shell界面的
 
发布了50 篇原创文章 · 获赞 30 · 访问量 7032

猜你喜欢

转载自blog.csdn.net/qq_44472134/article/details/104214391