2021-02-28 - 代码天地

2021-02-28

其他 2021-02-28 20:11:32 阅读次数: 0

Spark简介

Spark最初是由美国加州大学伯克利分校的AMP实验室在2009年开发，基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序
Spark主要特点：
1、运行速度快
2、容易使用
3、通用性
4、运行模式多样
Spark架构图：
在这里插入图片描述

Spark生态：
在这里插入图片描述
Spark生态系统：
Spark的设计遵循“一个软件栈满足不同应用场景”的理念，逐渐形成了一套完整的生态系统
既能够提供内存计算框架，也可以支持SQL即席查询、实时流式计算、机器学习和图计算等
Spark可以部署在资源管理器YARN上，提供一站式的大数据解决方案
因此，Spark所提供的生态系统足以应对上述三种场景，即同时支持批处理、交互式查询和流数据处理
Spark运行架构：
RDD：是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模式
DAG：反应RDD之间的依赖关系
Executor：试运行在工作节点的一个进程，负责运行Task
应用（Application）：用户编写的Spark应用程序
任务（Task）：运行在Executor上的工作单位
作业（Job）：一个作业包含多个RDD及作用于相应RDD上的各种操作
阶段（Stage）：是作业的基本调度单位，一个作业会分成多组任务，每组任务被称为阶段，或者也被称为任务集合，代表了一组关联的、相互之间没有Shuffle依赖关系的任务组成的任务集

猜你喜欢

转载自blog.csdn.net/weixin_46519384/article/details/114227568

2021-02-28

webpack搭建项目2021-02-28

【2021-02-28】2020下半年中国移动互联网大报告

2021-02-28：给定一个整型数组arr，和一个整数num。某个arr中的子数组sub，如果想达

2021-02-28 Matlab绘制短时傅里叶变换的频谱图和时间-频率-幅值三维图

2021-02-28：给定一个整型数组arr，和一个整数num。某个arr中的子数组sub，如果想达标，必须满足：sub中最大值 – sub中最小值＜= num，返回arr中达标子数组的数量。

2021-02-28-Web定义总结

C++一周学习总结（2021/02/28）

2021-02-02

2021-01-28

2021-2-28

2021-03-28

日记2021/9/28

2021-10-28

2021-04-28

2021-08-28

2021-05-28

2021-09-28

2021-06-28

随感-2012/02/28

2020-02-28

2021-02-08--2021-02-09

2021-02-01---2021-02-07

2021-10-28 GUI

bookmarks_2021_9_28

2021-01-02

2021-02-03

2021-02-04

2021-02-11

2021-02-14

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)