Spark2.3 RDD之 filter源码解析 - 代码天地

Spark2.3 RDD之 filter源码解析

其他 2018-05-07 16:25:43 阅读次数: 7

spark filter源码：

 /**
   * Return a new RDD containing only the elements that satisfy a predicate.
   */
  def filter(f: T => Boolean): RDD[T] = withScope {
    val cleanF = sc.clean(f)
    new MapPartitionsRDD[T, T](
      this,
      (context, pid, iter) => iter.filter(cleanF),
      preservesPartitioning = true)
  }

context, pid, iter 代表 TaskContext, partition index, iterator

scala filter 源码：

  /** Returns an iterator over all the elements of this iterator that satisfy the predicate `p`.
   *  The order of the elements is preserved.
   *
   *  @param p the predicate used to test values.
   *  @return  an iterator which produces those values of this iterator which satisfy the predicate `p`.
   *  @note    Reuse: $consumesAndProducesIterator
   */
  def filter(p: A => Boolean): Iterator[A] = new AbstractIterator[A] {
    // TODO 2.12 - Make a full-fledged FilterImpl that will reverse sense of p
    private var hd: A = _
    private var hdDefined: Boolean = false

    def hasNext: Boolean = hdDefined || {
      do {
        if (!self.hasNext) return false
        hd = self.next()
      } while (!p(hd))
      hdDefined = true
      true
    }

    def next() = if (hasNext) { hdDefined = false; hd } else empty.next()
  }

标红部分其实就是将满足p函数的元素单独拿出来组成新迭代器（元素的顺序不改变）,不满足的直接抛弃。最后这些迭代器

组成新的RDD。

例子：

object Test extends App {

  val sparkConf = new SparkConf().
    setAppName("Test")
    .setMaster("local[6]")

  val spark = SparkSession
    .builder()
    .config(sparkConf)
    .getOrCreate()

  val value: RDD[Int] = spark.sparkContext.parallelize(List(1, 2, 3, 5, 8, 9), 3)
  println(value.filter(_ != 2).getNumPartitions)

}

分区不回被改变。

猜你喜欢

转载自blog.csdn.net/dpnice/article/details/80094747

Spark2.3 RDD之 filter源码解析

Spark2.3 RDD之flatMap源码解析

spark2.3 RDD之 map 源码解析

Spark2.3 RDD之 treeAggregate / treeReduce源码解析

spark2.3 RDD之reduce源码解析

Spark2.3 RDD之 distinct 源码浅谈

Spark2.3 源码解析之随机森林 random forest

Spark2.3 源码解析之梯度提升树 gradient boosting tree

Spark2.3 决策树 decision tree 源码解析

[Spark]-源码解析-RDD之transform

spark源码分析之RDD

spark2.3结构化(Structured Streaming)的流之Streaming+streaming join

Spark RDD 之 repartition/coalesce 源码浅谈

Spark-RDD之Partition源码分析

Spark源码解读之RDD依赖Dependency

Spark学习了解CORE、RDD等，以及基于Hadoop2.7.5的伪分布式集群搭建Spark2.3的环境部署

CDH安装SPARK2.3

Spark2.3（三十四）：Spark Structured Streaming之withWaterMark和windows窗口是否可以实现最近一小时统计

spark源码解读3之RDD中top源码解读

Spark深入解析（五）：SparkCore之RDD编程模型

Spark深入解析（四）：SparkCore之RDD概述

Spark深入解析（十一）：RDD的转换之Action动作算子

【Spark】源码分析之RDD的生成及stage的切分

Spark源码解读之RDD构建和转换过程

Spark之RDD基础

spark学习之RDD

[Spark]-RDD之创建

spark之RDD

Spark RDD之Partition

Spark RDD之Dependency

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)