目录
Spark Shell 中算子的操作 (转换算子和执行算子)
HADOOP和Spark生态圈
bin 目录下spark-shell 命令进入
Spark Shell 中算子的操作 (转换算子和执行算子)
Tansformation算子/函数 延迟执行 转换算子
1、map 窄依赖
2、filter 窄依赖
3、flatMap 窄依赖
4、coalesce (分区数,true) rdd7.partitions.size 查看rdd的分区数 val rdd5=rdd4.coalesce(3,true)
5、repartition (分区数) 不存在
shuffle val rdd5=rdd4.repartition(4)
6、groupByKey() RDD[String,Iterable(Int)]
7、reduceBykey(_+_) val rdd8=rdd7.reduceByKey(_+_) 宽依赖
8、sortBykey() 根据K排序,要求RDD 中必须是KV的,宽依赖
9、sortBy(_._2,false) 以value排序,进行倒序排序
10、coalesce 可以增加分区,可以减少分区,有shuffle 所以是宽依赖
repartition 可以增加分区,可以减少分区,有shuffle 所以是宽依赖 分区
Action 立刻执行 行动算子
1、collect
2、sum()
返回Double类型
3、rdd15.reduce(_+_)
返回的是int类型
4、rdd15.take(N)
获
取前N位
rdd1.takeOrdered(N)
升序排好序之后
获
取前N位
rdd1.top(N)
降序
排好序之后
获
取前N位
rdd1.first
直接取出来首位
rdd1.count
查看rdd中有多少元素
单节点基于standload的进入方式
spark/bin 目录下 ./spark-shell 回车
单节点基于yarn调度的进入方式
spark/bin 目录下 spark-shell --master yarn-client 进yarn spark shell界面的