大数据：spark内核调度，DAG，job，宽窄依赖，stage阶段，内存计算管道，并行度task数量

业界资讯 2023-06-12 07:53:56 阅读次数: 0

大数据：spark内核调度

2022找工作是学历、能力和运气的超强结合体，遇到寒冬，大厂不招人，可能很多算法学生都得去找开发，测开
测开的话，你就得学数据库，sql，oracle，尤其sql要学，当然，像很多金融企业、安全机构啥的，他们必须要用oracle数据库
这oracle比sql安全，强大多了，所以你需要学习，最重要的，你要是考网络警察公务员，这玩意你不会就别去报名了，耽误时间！
与此同时，既然要考网警之数据分析应用岗，那必然要考数据挖掘基础知识，今天开始咱们就对数据挖掘方面的东西好生讲讲最最最重要的就是大数据，什么行测和面试都是小问题，最难最最重要的就是大数据技术相关的知识笔试

文章目录

大数据：spark内核调度

@[TOC](文章目录)

大数据：spark内核调度

总结

大数据：spark内核调度

在这里插入图片描述

DAG，有方向direction ancircle 无环graph图

DAG有向无环图

action是执行开关
执行之前是有一个迭代链条哦
这个链条就是DAG有向无环图

在这里插入图片描述
就是执行流程图，不需要运行，看代码就知道你要咋运行

在这里插入图片描述

一步步走
构建DAG图
在这里插入图片描述
构建出来一个DAG
因为take启动就可以搞定所有的任务

继续需求2
在这里插入图片描述
又是跟split_rdd开始玩的

take就是触发开关
持久化了的缓存就可以直接用

在这里插入图片描述

各个action，都有各自的链条

在这里插入图片描述
一个action触发一个工作应用程序子任务job
job
一条链子就是一个job

在这里插入图片描述
懂了，action有多少个，就有多少dag
一个application包含多个action，就是多个job

懂了

在这里插入图片描述

在这里插入图片描述
分叉

在这里插入图片描述
窄依赖美滋滋
线程运行在不同的executor
之间，那传输数据，可能造成网络io性能满
怎么说呢？
所以窄依赖的阶段，全部放同一个内存中计算？是不是不要传输io了
同一个线程中处理好不好？
很好

线程1全干一条线，内存中计算的一条管子，美滋滋，叫内存计算管道，叫pipeline

在这里插入图片描述
同理，右边一样

那宽依赖就必须走网络io了
或者都在同一个executor上，也是内存内部计算了【很难做到】

不得不走网络io的就得传输了，反正计算管道内部不就是美滋滋了

当然了，spark并行的优先级，是核心
内存计算是次要的

你想要全内存，知识local模式，绝对不是yarn模式

大数据做不到全内存内部计算的

在这里插入图片描述
没事不要修改并行度
这样性能才能保证
懂了吧
不要乱

不要没事改分区数量

在这里插入图片描述
窄依赖直接做内存迭代，即内存计算管道，一个task干就完事了
不需要网络io传输，提高了性能

spark构建了DAG

DAG往后传输形成宽窄依赖

窄依赖内就是管道计算迭代

在这里插入图片描述
spark比MapReduce的好处就是算子多
spark有内存迭代管道，少了很多io网络传输，这性能一下子就高了

这就是面试的题目了，考试要区分好
在这里插入图片描述
并行度，不是分区哦
最好分区就是和并行度类似

在这里插入图片描述

shuffle是洗牌
最好别洗网络io或者太多洗牌操作
难搞

计算复杂
在这里插入图片描述

并行度是cpu数量的2–10倍

总结

提示：重要经验：

1）
2）学好oracle，即使经济寒冬，整个测开offer绝对不是问题！同时也是你考公网络警察的必经之路。
3）笔试求AC，可以不考虑空间复杂度，但是面试既要考虑时间复杂度最优，也要考虑空间复杂度最优。

猜你喜欢

转载自blog.csdn.net/weixin_46838716/article/details/131045673

大数据：spark内核调度，DAG，job，宽窄依赖，stage阶段，内存计算管道，并行度task数量

spark-DAG，宽窄依赖，Stage，Shuffle

Spark中RDD的宽窄依赖 & 图解RDD执行中Application、Job、Stage、Task的关系

spark task、job、partition之间的关系宽窄依赖 spark任务调度

Spark宽依赖窄依赖 Job Stage Executor Task 总结

Spark中的宽窄依赖和Stage的划分

Spark 宽窄依赖和stage的划分

spark job， stage ，task介绍。

spark job， stage ，task介绍

大数据Spark04RDD宽窄依赖

Spark job, stage, task， partition相关问题

spark中job stage task关系

Spark Application、Driver、Job、stage、task

Spark 中 job stage task 关系

大数据学习之spark—RDD操作、DAG依赖 shuffle

Spark的宽窄依赖

Spark core学习笔记（二）-----（RDD属性、RDD深度解析、RDD逻辑图与物理图生成、Job调度、宽窄依赖、Shuffle过程、广播变量，闭包）

Spark学习笔记1：Application，Driver，Job，Task，Stage理解

Spark中Application、Job、Stage和Task区别详解

spark --RDD宽窄依赖关系

Spark—— DAG 如何划分stage？

大数据系列10：Spark – 内存计算

Spark深入解析（十三）： RDD依赖关系、DAG生成、划分Stage

Spark之SparkCore:RDD-数据核心/API【依赖关系：宽窄依赖】

Spark_RDD宽窄依赖关系

Spark_RDD宽窄依赖关系

Spark宽窄依赖的划分规则

Spark开发：Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure问题

spark中job、stage、task、partition、executor概念理解以及分区数深入探究

spark-Job，stage，Task等一些基本概念

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)