sparkCore RDD解析、算子用法详解

一、RDD概述

1. 什么是RDD
RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。

2.RDD的属性
在这里插入图片描述

  • 一组分区(Partition),即数据集的基本组成单位;
  • 一个计算每个分区的函数;
  • RDD之间的依赖关系;
  • 一个Partitioner,即RDD的分片函数;
  • 一个列表,存储存取每个Partition的优先位置(preferred location)

3. RDD特点
RDD表示只读的分区的数据集,对RDD进行改动,只能通过RDD的转换操作,由一个RDD得到一个新的RDD,新的RDD包含了从其他RDD衍生所必需的信息。RDDs之间存在依赖,RDD的执行是按照血缘关系延时计算的。如果血缘关系较长,可以通过持久化RDD来切断血缘关系。

  • 分区:
    RDD逻辑上是分区的,每个分区的数据是抽象存在的,计算的时候会通过一个compute函数得到每个分区的数据。如果RDD是通过已有的文件系统构建,则compute函数是读取指定文件系统中的数据,如果RDD是通过其他RDD转换而来,则compute函数是执行转换逻辑将其他RDD的数据进行转换。
    在这里插入图片描述

  • 只读:
    如下图所示,RDD是只读的,要想改变RDD中的数据,只能在现有的RDD基础上创建新的RDD。
    在这里插入图片描述
    由一个RDD转换到另一个RDD,可以通过丰富的操作算子实现,不再像MapReduce那样只能写map和reduce了, RDD的操作算子包括两类,一类叫做 transformations,它是用来将RDD进行转化,构建RDD的血缘关系;另一类叫做 actions,它是用来触发RDD的计算,得到RDD的相关计算结果或者将RDD保存的文件系统中。

  • 依赖
    RDD通过操作算子进行转换,转换得到的新RDD包含了从其他RDDs衍生所必需的信息,RDDs之间维护着这种血缘关系,也称之为依赖。如下图所示,依赖包括两种,一种是窄依赖,RDD之间分区是一对一或者多对一的,另一种是宽依赖,下游RDD的每个分区与上游RDD(也称之为父RDD)的每个分区都有关,是一对多的关系。
    在这里插入图片描述

  • 缓存
    如果在应用程序中多次使用同一个RDD,可以将该RDD缓存起来,该RDD只有在第一次计算的时候会根据血缘关系得到分区的数据,在后续其他地方用到该RDD的时候,会直接从缓存处取而不用再根据血缘关系计算,这样就加速后期的重用。如下图所示,RDD-1经过一系列的转换后得到RDD-n并保存到hdfs,RDD-1在这一过程中会有个中间结果,如果将其缓存到内存,那么在随后的RDD-1转换到RDD-m这一过程中,就不会计算其之前的RDD-0了。
    在这里插入图片描述

  • CheckPoint
    虽然RDD的血缘关系天然地可以实现容错,当RDD的某个分区数据失败或丢失,可以通过血缘关系重建。但是对于长时间迭代型应用来说,随着迭代的进行,RDD之间的血缘关系会越来越长,一旦在后续迭代过程中出错,则需要通过非常长的血缘关系去重建,势必影响性能。为此,RDD支持checkpoint将数据保存到持久化的存储中这样就可以切断之前的血缘关系,因为checkpoint后的RDD不需要知道它的父RDD了, 它可以从checkpoint处拿到数据。

二、RDD编程

1.编程模型

  • 在Spark中,RDD被表示为对象,通过对象上的方法调用来对RDD进行转换。经过一系列的 transformations定义RDD之后,就可以调用actions触发RDD的计算,action可以是向应用程序返回结果(count, collect等),或者是向存储系统保存数据(saveAsTextFile等)。在Spark中,只有遇到action,才会执行RDD的计算(即延迟计算),这样在运行时可以通过管道的方式传输多个转换。
  • 要使用Spark,需要编写一个Driver程序,它被提交到集群以调度运行Worker,如下图所示。Driver中定义了一个或多个RDD,并调用RDD上的action,Worker则执行RDD分区计算任务。
    在这里插入图片描述
    在这里插入图片描述

2.RDD的创建
在Spark中创建RDD的创建方式可以分为三种:从集合中创建RDD;从外部存储创建RDD;从其他RDD创建。

import org.apache.log4j.{
    
    Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{
    
    SparkConf, SparkContext}

/**
 * 生成RDD
 */
object Demo02CreatRdd {
    
    
  def main(args: Array[String]): Unit = {
    
    
    //控制日志输出
    Logger.getLogger("org").setLevel(Level.ERROR)

    /* 初始化SparkContext */
    val sc = new SparkContext(new SparkConf().setAppName(this.getClass.getName).setMaster("local[2]"))

    /* 创建集合 */
    val array = Array(1, 2, 3, 4, 5)

    /* 并行化创建RDD  默认分区2个 */
    /* 1.使用集合 */
    val arrayRDD1: RDD[Int] = sc.parallelize(array)
    println("默认分区: " + arrayRDD1.getNumPartitions)

    /* 并行化创建RDD 指定分区数 */
    val arrayRDD2: RDD[Int] = sc.parallelize(array,5)
    println("指定分区数: " + arrayRDD2.getNumPartitions)

    //变成 kv的Rdd
    val value: RDD[(Int, Int)] = arrayRDD1.map((_,1))

    /* 以元组的形式创建数组 */
    val arr1 = Array((1,1),(2,2),(3,3),(4,5))
    //变成 kv的Rdd
    val numRdd2: RDD[(Int, Int)] = sc.parallelize(arr1)


    // 2.使用外部存储系统   本地   hdfs 创建RDD
    val unit: RDD[String] = sc.textFile("")
  }
}

3.transformations类算子

3.1.Value类型

  • map(func)
    作用:返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成,每次处理一条数据。
  • mapPartitions(func)
    作用:类似于map,但独立地在RDD的每一个分片上运行,因此在类型为T的RDD上运行时,func的函数类型必须是Iterator[T] => Iterator[U]。假设有N个元素,有M个分区,那么map的函数的将被调用N次,而mapPartitions被调用M次,一个函数一次处理所有分区。
    每次处理一个分区的数据,这个分区的数据处理完后,原RDD中分区的数据才能释放,可能导致OOM。
    开发指导:当内存空间较大的时候建议使用mapPartition(),以提高处理效率。
  • mapPartitionsWithIndex(func)
    作用:类似于mapPartitions,但func带有一个整数参数表示分片的索引值,因此在类型为T的RDD上运行时,func的函数类型必须是(Int, Interator[T]) => Iterator[U];
import org.apache.log4j.{
    
    Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{
    
    SparkConf, SparkContext}
import scala.collection.mutable

object Demo03Transformation {
    
    

  /* 测试map算子 */
  def map(sc: SparkContext) = {
    
    
    /* 创建数组 */
    val array = Array(1, 2, 3, 4, 5, 6, 9)
    /* 生成RDD */
    val arrayRDD: RDD[Int] = sc.parallelize(array)
    /* 用map算子聚合 将RDD中每个元素乘2 */
    val mapRDD: RDD[Int] = arrayRDD.map(_ * 2)
    /* 调用Action算子的 collect() 将RDD转成数组 */
    val array1: Array[Int] = mapRDD.collect()
    /* 转成可变的数组  */
    val buffer: mutable.Buffer[Int] = array1.toBuffer
    println(buffer)
  }

  /* 测试 mapPartition方法 */
  def mapPartition(sc: SparkContext) = {
    
    
    /* 创建数组 */
    val array = Array(8, 1, 3, 4, 5, 6, 9)
    /* 并行化生成RDD */
    val arrayRDD: RDD[Int] = sc.parallelize(array)
    /* 对整个分区操作 */
    val mapPartitionsRDD: RDD[Int] = arrayRDD.mapPartitions(nums => {
    
    
      /* 元素乘10 */
      nums.map(_ * 10)
    })
    /* foreach遍历RDD */
    mapPartitionsRDD.foreach(println(_))
  }

  /* 测试mapPartitionWithIndex */
  def mapPartitionWithIndex(sc: SparkContext) = {
    
    
    /* 创建数组 */
    val array = Array(8, 1, 3, 4, 5, 6, 9)
    /* 并行化生成RDD 默认两个分区 */
    val arrayRDD: RDD[Int] = sc.parallelize(array)
    /*
      mapPartitionsWithIndex算子的匿名方法的参数
      index 分区的编号
      nums  整个分区的数据
     */
    val mapPartitionWithIndexRDD: RDD[(Int, Int)] = arrayRDD.mapPartitionsWithIndex((index, nums) => {
    
    
      nums.map(num => (index, num * 10))
    })
    /* foreach遍历RDD */
    mapPartitionWithIndexRDD.foreach(println(_))

  }

  def main(args: Array[String]): Unit = {
    
    

    //控制日志输出
    Logger.getLogger("org").setLevel(Level.ERROR)

    /* 初始化SparkContext */
    val sc = new SparkContext(new SparkConf().setAppName(this.getClass.getName).setMaster("local[2]"))

    /* 调用map方法 */
    map(sc)
    /* 调用mapPartition方法 */
    mapPartition(sc)
    /* 调用mapPartitionWithIndex方法 */
    mapPartitionWithIndex(sc)
    /* 关闭资源 */
    sc.stop()
  }
}
  • flatMap(func)
    作用:类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素)
  • glom
    作用:将每一个分区形成一个数组,形成新的RDD类型时RDD[Array[T]]
  • groupBy(func)
    作用:分组,按照传入函数的返回值进行分组。将相同的key对应的值放入一个迭代器。
  • filter(func)
    作用:过滤。返回一个新的RDD,该RDD由经过func函数计算后返回值为true的输入元素组成。
  • sample(withReplacement, fraction, seed)
    作用:以指定的随机种子随机抽样出数量为fraction的数据,withReplacement表示是抽出的数据是否放回,true为有放回的抽样,false为无放回的抽样,seed用于指定随机数生成器种子。
  • distinct([numTasks]))
    作用:对源RDD进行去重后返回一个新的RDD。默认情况下,只有8个并行任务来操作,但是可以传入一个可选的numTasks参数改变它。
  • coalesce(numPartitions)
    作用:缩减分区数,用于大数据集过滤后,提高小数据集的执行效率。 coalesce重新分区,可以选择是否进行shuffle过程。由参数shuffle: Boolean = false/true决定。默认不进行shuffle。
  • repartition(numPartitions)
    作用:根据分区数,重新通过网络随机洗牌所有数据。repartition实际上是调用的coalesce,默认是进行shuffle的,源码如下
def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
    
    
  coalesce(numPartitions, shuffle = true)
}
  • sortBy(func,[ascending], [numTasks])
    作用;使用func先对数据进行处理,按照处理后的数据比较结果排序,默认为正序。

  • pipe(command, [envVars])
    作用:管道,针对每个分区,都执行一个shell脚本,返回输出的RDD。

3.2.双Value类型交互

  • union(otherDataset)
    作用:并集,对源RDD和参数RDD求并集后返回一个新的RDD,不去重
  • subtract (otherDataset)
    作用:差集,计算差的一种函数,去除两个RDD中相同的元素,不同的RDD将保留下来
  • intersection(otherDataset)
    作用:交集,对源RDD和参数RDD求交集后返回一个新的RDD
  • cartesian(otherDataset)
    作用:笛卡尔积(尽量避免使用)
  • zip(otherDataset)
    作用:拉链,将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同,否则会抛出异常。

3.3.Key-Value类型

  • partitionBy
    作用:对pairRDD进行分区操作,如果原有的partionRDD和现有的partionRDD是一致的话就不进行分区, 否则会生成ShuffleRDD,即会产生shuffle过程。

  • groupByKey
    作用:groupByKey也是对每个key进行操作,但只生成一个sequence。按照key进行分组,直接进行shuffle。

  • reduceByKey(func, [numTasks])
    在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的reduce函数,将相同key的值聚合到一起,reduce任务的个数可以通过第二个可选的参数来设置。按照key进行聚合,在shuffle之前有combine(预聚合)操作,返回结果是RDD[k,v]
    开发指导:reduceByKey比groupByKey效率高,建议使用。但是需要注意是否会影响业务逻辑。

  • aggregateByKey
    参数:(zeroValue:U,[partitioner: Partitioner]) (seqOp: (U, V) => U,combOp: (U, U) => U)

  • 作用:在kv对的RDD中,,按key将value进行分组合并,合并时,将每个value和初始值作为seq函数的参数,进行计算,返回的结果作为一个新的kv对,然后再将结果按照key进行合并,最后将每个分组的value传递给combine函数进行计算(先将前两个value进行计算,将返回结果和下一个value传给combine函数,以此类推),将key与计算结果作为一个新的kv对输出。

  • 参数描述:
    (1)zeroValue:给每一个分区中的每一个key一个初始值;
    (2)seqOp:函数用于在每一个分区中用初始值逐步迭代value;
    (3)combOp:函数用于合并每个分区中的结果。

  • foldByKey
    参数:(zeroValue: V)(func: (V, V) => V): RDD[(K, V)]
    作用:aggregateByKey的简化操作,seqop和combop相同

  • combineByKey[C]
    参数(createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C)
    1.作用:对相同K,把V合并成一个集合。
    2.参数描述:
    (1)createCombiner: combineByKey() 会遍历分区中的所有元素,因此每个元素的键要么还没有遇到过,要么就和之前的某个元素的键相同。如果这是一个新的元素,combineByKey()会使用一个叫作createCombiner()的函数来创建那个键对应的累加器的初始值
    (2)mergeValue: 如果这是一个在处理当前分区之前已经遇到的键,它会使用mergeValue()方法将该键的累加器对应的当前值与这个新的值进行合并
    (3)mergeCombiners: 由于每个分区都是独立处理的, 因此对于同一个键可以有多个累加器。如果有两个或者更多的分区都有对应同一个键的累加器, 就需要使用用户提供的 mergeCombiners() 方法将各个分区的结果进行合并。

  • sortByKey([ascending], [numTasks])
    作用:在一个(K,V)的RDD上调用,K必须实现Ordered接口,返回一个按照key进行排序的(K,V)的RDD

  • mapValues
    针对于(K,V)形式的类型只对V进行操作

  • join(otherDataset, [numTasks])
    作用:在类型为(K,V)和(K,W)的RDD上调用,返回一个相同key对应的所有元素对在一起的(K,(V,W))的RDD

  • cogroup(otherDataset, [numTasks])
    作用:在类型为(K,V)和(K,W)的RDD上调用,返回一个(K,(Iterable,Iterable))类型的RDD

4.Action算子

  • reduce(func)
    作用:通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。
  • collect()
    作用:在驱动程序中,以数组的形式返回数据集的所有元素。
  • count()
    作用:返回RDD中元素的个数
  • first()
    作用:返回RDD中的第一个元素
  • take(n)
    作用:返回一个由RDD的前n个元素组成的数组
  • takeOrdered(n)
    作用:返回该RDD排序后的前n个元素组成的数组
  • aggregate
  1. 参数:(zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)
  2. 作用:aggregate函数将每个分区里面的元素通过seqOp和初始值进行聚合,然后用combine函数将每个分区的结果和初始值(zeroValue)进行combine操作。这个函数最终返回的类型不需要和RDD中元素类型一致。
  • fold(num)(func)
    作用:折叠操作,aggregate的简化操作,seqop和combop一样。
  • saveAsTextFile(path)
    作用:将数据集的元素以textfile的形式保存到HDFS文件系统或者其他支持的文件系统,对于每个元素,Spark将会调用toString方法,将它装换为文件中的文本
  • saveAsSequenceFile(path)
    作用:将数据集中的元素以Hadoop sequencefile的格式保存到指定的目录下,可以使HDFS或者其他Hadoop支持的文件系统。
  • countByKey()
    作用:针对(K,V)类型的RDD,返回一个(K,Int)的map,表示每一个key对应的元素个数。
  • foreach(func)
    作用:在数据集的每一个元素上,运行函数func进行更新
import org.apache.log4j.{
    
    Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{
    
    SparkConf, SparkContext}
import scala.collection.mutable

object Demo01Transformation {
    
    

  /* 测试flatMap方法 */
  def flatMap(sc: SparkContext): Unit = {
    
    
    /* 创建字符串数组 */
    val arrStr = Array("hello hadoop", "hi hive", "ha spark")
    /* 生成RDD */
    val arrStrRDD: RDD[String] = sc.parallelize(arrStr)
    /* 将RDD中的所有元素按空格切分 */
    val value: RDD[Array[String]] = arrStrRDD.map(_.split(" "))
    val array: Array[Array[String]] = value.collect()
    val buffer: mutable.Buffer[Array[String]] = array.toBuffer
    buffer.foreach(println(_))
    /* flatMap 扁平化操作 */
    val value1: RDD[String] = arrStrRDD.flatMap(_.split(" "))
    value1.foreach(println(_))
  }

  /* 测试 glom方法 */
  def glom(sc: SparkContext) = {
    
    
    /* 并行化生成RDD 指定分区 4个 */
    val numRDD: RDD[Int] = sc.parallelize(1 to 9, 4)

    val value: RDD[Array[Int]] = numRDD.glom()
    val array: Array[Array[Int]] = value.collect()
    val buffer: mutable.Buffer[Array[Int]] = array.toBuffer
    buffer.foreach(println(_))
    value.foreach(aa => println(aa.toBuffer))
  }

  /* 测试  groupBy方法 */
  def groupBy(sc: SparkContext) = {
    
    
    /* 并行化生成RDD */
    val numRDD: RDD[Int] = sc.parallelize(1 to 9)
    /* groupBy 分组  按照奇偶数分组*/
    val value: RDD[(Int, Iterable[Int])] = numRDD.groupBy(_ % 2)
    /* 遍历 */
    value.foreach(println(_))
    println("-----------------------------")

    val value1: RDD[(Int, Int)] = numRDD.map(num => (num % 2, num))
    val value2: RDD[(Int, Iterable[Int])] = value1.groupByKey()
    value2.foreach(println(_))
  }

  /* 测试  filter 方法 */
  def filter(sc: SparkContext) = {
    
    
    /* 创建字符串数组 */
    val array: Array[String] = Array("hello spark", "hi hadoop", "I want study")
    /* 并行化生成RDD */
    val arrayRDD: RDD[String] = sc.parallelize(array)
    /* 过滤掉每行数据包含 he 的数据 */
    val value: RDD[String] = arrayRDD.filter(str => !str.contains("he"))
    value.foreach(println(_))
    println("====================")
    /* 过滤掉单个包含 he 的字符 */
    arrayRDD.flatMap(_.split(" ")).filter(!_.contains("he")).foreach(println(_))
  }
  /* 测试  sample方法 取样 */
  def sample(sc: SparkContext) = {
    
    
    /* 并行化生成RDD */
    val numRDD: RDD[Int] = sc.parallelize(1 to 10)
    /* sample方法  取样  参数: */
    val value: RDD[Int] = numRDD.sample(false, 0.1)
    value.foreach(println(_))
  }

  /* 测试  distinct方法 去重 */
  def distinct(sc: SparkContext) = {
    
    
    val array = Array(1, 1, 1, 2, 9, 9, 8, 4, 7, 5, 6, 2, 3, 3, 5, 1, 7, 2)
    /* 并行化生成RDD */
    val arrayRDD: RDD[Int] = sc.parallelize(array)
    /* 指定两个分区   都去重 */
    val value: RDD[Int] = arrayRDD.distinct(2)
    value.foreach(println(_))
  }

  /* 测试  partition方法  */
  def partition(sc: SparkContext) = {
    
    
    /* 以元组的形式 创建数组 */
    val array = Array((1, 1, 9, 9, 9, 5, 5, 6, 6, 6, 7, 7), 8, 6)
    /* 并行化生成 RDD */
    val arrayRDD = sc.parallelize(array)
    /* 优化 增大分区 提高并行度 */
    println(arrayRDD.repartition(6).getNumPartitions)
    println(arrayRDD.coalesce(6).getNumPartitions)
    println(arrayRDD.coalesce(6,true).getNumPartitions)

    /* 减少分区 合并分区 */
    println(arrayRDD.repartition(1).getNumPartitions)
    println(arrayRDD.coalesce(1).getNumPartitions)
    /* 优化:尽量减少shuffle类的算子 */
  }

  /* 测试 sortBy 方法  */
  def sortBy(sc: SparkContext) = {
    
    
    val array = Array(5, 3, 4, 1, 2)
    /* 并行化生成RDD */
    val arrayRDD: RDD[Int] = sc.parallelize(array)
    /* 升序 指定分区个数为1 */
    val value: RDD[Int] = arrayRDD.sortBy(num => num, true, 1)
    value.foreach(println(_))
  }

  /* 测试 uion 方法  */
  def uion(sc: SparkContext) = {
    
    
    /* 并行化生成RDD */
    val uionRDD1: RDD[Int] = sc.parallelize(1 to 2)
    val uionRDD2: RDD[Int] = sc.parallelize(2 to 3)
    /* 合并两个RDD */
    val value: RDD[Int] = uionRDD1.union(uionRDD2)
    value.foreach(println(_))
  }

  /* 测试 subtract 方法 交集 差集 笛卡尔积 拉链 */
  def subtract(sc: SparkContext) = {
    
    
    /* 以元组的形式 创建数组 */
    val array1 = Array((1,2,3,4,5),3,5)
    val array2 = Array((3,4,5,6,7),5,6)
    /* 并行化生成RDD */
    val array1RDD = sc.parallelize(array1, 3)
    val array2RDD = sc.parallelize(array2,3)
    /* 差集 */
    val value1 = array1RDD.subtract(array2RDD)
    value1.foreach(println(_))
    println("----------------")
    /* 交集 */
    array1RDD.intersection(array2RDD).foreach(println(_))
    println("----------------")
    /* 笛卡尔积 */
    array1RDD.cartesian(array2RDD).foreach(println(_))
    println("----------------")
    /* zip 拉链 */
    array1RDD.zip(array2RDD).foreach(println(_))
  }

  /* 测试 partitionBy 方法 */
  def partitionBy(sc: SparkContext) = {
    
    
    /* 以元组的形式 创建数组 */
    val array1 = Array((1,2,3,4,5),3,5)
    /* 并行化生成RDD */
    val array1RDD: RDD[Any] = sc.parallelize(array1)
    val value: RDD[(Any, Any)] = array1RDD.map(num => (num, num))
    value.foreach(println(_))
  }

  def groupByKey(sc: SparkContext) = {
    
    

    val words = Array("one", "two", "two", "three", "three", "three")
    val wordsRdd = sc.parallelize(words)

    //    wordsRdd.count()
    wordsRdd.map((_,1))
      .groupByKey(1)  //按照key 分组  指定1个分区
      .foreach(println(_))

  }

  def reduceByKey(sc: SparkContext) = {
    
    

    val numRdd01 = sc.parallelize(Array("one", "three", "two", "two", "three",  "three"))
    val pairRdd = numRdd01.map(word => (word, 1))

    pairRdd.cache() //持久化

    pairRdd.reduceByKey(_+_)
      //      .reduceByKey((a:Int,b:Int) => a+b)
      .foreach(println(_))

    println("---------")

    //先分区内合并,然后做最后的合并   100 是每个分区的初始值
    pairRdd.aggregateByKey(100)(_+_,_+_) .foreach(println(_))

    println("---------")
    pairRdd.combineByKey(init => init+100,(a:Int,b:Int)=>a+b,(a:Int,b:Int)=>a+b) .foreach(println(_))


  }

  def foldBykey(sc: SparkContext) = {
    
    

    val numRdd = sc.parallelize(List((1,3),(1,2),(1,4),(2,3),(3,6),(3,8)),3)

    numRdd.foldByKey(100)(_+_).foreach(println(_))

  }

  def sortByKey(sc: SparkContext) = {
    
    

    val rdd = sc.parallelize(Array((3,"aa"),(6,"cc"),(2,"bb"),(1,"dd")))

    //降序 1个分区
    rdd.sortByKey(false,1)
      //取前2名
      .take(2)
      .foreach(println(_))

    println("-------")
    rdd.sortBy(_._1,false,1).foreach(println(_))

    println("-------")
    //对kv的Rdd  做value 操作
    rdd.mapValues(_*2).foreach(println(_))

  }

  def join(sc: SparkContext) = {
    
    

    val rdd01 = sc.parallelize( Array(("A",1),("B",2),("C",3)) )
    val rdd02 = sc.parallelize( Array(("A",true),("B",false)) )

    val j1Rdd: RDD[(String, (Int, Boolean))] = rdd01.join(rdd02)
    j1Rdd.foreach(println(_))

    println("---------")
    val v1: RDD[(String, (Int, Option[Boolean]))] = rdd01.leftOuterJoin(rdd02)
    v1.foreach(println(_))

    println("-------")
    v1.foreach(tuple=>{
    
    
      val k = tuple._1
      val v1 = tuple._2._1
      val value: Option[Boolean] = tuple._2._2

      println((k,v1,value.getOrElse(0)))

    })
    //cogroup
    val v2: RDD[(String, (Iterable[Int], Iterable[Boolean]))] = rdd01.cogroup(rdd02)

    v2.foreach(println(_))
  }

  def main(args: Array[String]): Unit = {
    
    
    //控制日志输出
    Logger.getLogger("org").setLevel(Level.ERROR)

    /* 初始化SparkContext */
    val sc = new SparkContext(new SparkConf().setAppName(this.getClass.getName).setMaster("local[2]"))

    /* 调用flatMap方法 */
    //flatMap(sc)
    /* 调用glom方法 */
    //glom(sc)
    /* 调用groupBy方法 */
    //groupBy(sc)
    /* 调用filter方法 */
    //filter(sc)
    /* 调用 sample 取样 方法 */
    //sample(sc)
    /* 调用 distinct 去重 方法 */
    //distinct(sc)
    /* 调用 partition  方法 */
    //partition(sc)
    /* 调用 sortBy 排序 方法 */
    //sortBy(sc)
    /* 调用 uion  方法 */
    //uion(sc)
    /* 调用 subtract 方法 差集 交集 笛卡尔积 拉链 */
    //subtract(sc)
    /* 调用 partitionBy  方法 */
    //partitionBy(sc)
    //    groupByKey(sc)

    //    reduceByKey(sc)
    //    foldBykey(sc)
    //    sortByKey(sc)
    join(sc)
    /* 关闭资源 */
    sc.stop()
  }
}

猜你喜欢

转载自blog.csdn.net/weixin_46122692/article/details/109026681
今日推荐