Spark之Pipeline处理模式 - 代码天地

Spark之Pipeline处理模式

其他 2019-04-04 12:11:24 阅读次数: 0

一.简介

　　Pipeline管道计算模式：只是一种计算思想，在数据处理的整个流程中，就想水从管道流过一下，是顺序执行的。

二.特点

　　1.数据一直在管道中，只有在对RDD进行持久化【cache,persist...】或shuffle write时才会落地。

　　2.管道中的处理也是懒加载的，只有遇到action算子之后才会执行。

三.代码验证

package big.data.analyse.scala.pipeline

import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.SparkSession

/**
  * Created by zhen on 2019/4/4.
  */
object RDDPipelineAnalyse {

  Logger.getLogger("org").setLevel(Level.INFO) // 设置日志级别

  def main(args: Array[String]) {
    val spark = SparkSession.builder().appName("检测spark数据处理pipeline")
      .master("local[2]").getOrCreate()

    val sc = spark.sparkContext
    val rdd = sc.parallelize(Array(1,2,3,4,5,6))

    println("rdd partition size : " + rdd.partitions.length)
    val rdd1 = rdd.map{ x => {
      println("map--------"+x)
      x * 10
    }}
    val rdd2 = rdd1.filter{ x => {
      println("fliter========"+x)
      true
    } }

    rdd2.collect()
    sc.stop()
  }
}

四.执行结果

　　　　　　

五.分析

　　管道处理是先进先出的，也就是先进先执行，这只对具体到每条数据而言，不同条数据的执行先后没有固定的顺序。

因此不能根据原始数据的顺序确定处理的顺序。

猜你喜欢

转载自www.cnblogs.com/yszd/p/10653994.html

Spark之Pipeline处理模式

Spark之pipeline机制

Spark.ML之PipeLine学习笔记

Spark Pipeline

go语言设计模式之Concurrency pipeline

Spark-Pipeline计算

Spark的Ml pipeline理解

Spark运行模式之Spark on Yarn

spark运行模式之 ===> Standalone

Spark之Yarn提交模式

spark的运行模式之 ==> 本地运行模式

Spark运行模式之模式的比较

Spark运行模式之Mesos模式

Spark运行模式之Yarn模式

Spark运行模式之Standalone模式

Spark运行模式之Local模式

Spark运行模式之Yarn模式详解

Spark运行模式之Standalone模式详解

大数据之Spark（八）--- Spark闭包处理，部署模式和集群模式，SparkOnYarn模式，高可用，Spark集成Hive访问hbase类加载等异常解决，使用spark下的thriftserv

经验 - spark中的pipeline机制

spark 机器学习（ml pipeline）

Spark ML PipeLine学习笔记

Pipeline处理Dataflow

Pipeline并行处理模型

[设计模式] Pipeline 设计模式

redis之pipeline使用

netty 二之pipeline

redis之管道——pipeline

Scrapy之Images Pipeline

Jenkins的语法之pipeline

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)