高阶函数
高阶函数
map:对集合中的每一个元素都做一个操作
foreach:循环遍历集合
filter:过滤结果集
take:取集合里面的元素
reduce:两两相邻的元素做某一个操作
reduce/reduceLeft/reduceRight: 两两相邻的元素做某一个操作
fold/foldLeft/foldRight: 第一个参数是一个初始值,最终的结果加上这个值
zip:List配对成tuple,相当于inner join
faltten:压扁
flatMap:先map再压扁
max/min/sum/length/count: 聚合运算函数
上面这些函数都是spark里面的算子,但是scala里面这些算子并不是spark自带的高阶函数,只是名字相同而已。
RDD的函数和scala函数的名字大部分一模一样,无缝对接。
// 降低编写分布式应用程序的难度
Scala API 与 Spark Core API 非常类似
python datafrom 与 Spark SQL DataFrame API 非常类似