SPARK---Spark Core(1)

企业开发 2021-03-25 10:18:59 阅读次数: 0

Spark Core

Spark概述
spark与MR比较
spark系统架构
spar安装部署

Spark概述

spark是一个快速、通用的计算引擎
spark特点：
速度快，使用简单、通用、兼容好

spark与MR比较

Map Reduce	Spark
数据存储结构：磁盘HDFS文件系统的split	使用内存构建分布式数据集RDD对数据进行运算和cache
编程范式：Map+Reduce，仅有两个操作，表达能力欠缺	提供了丰富的操作，使数据处理逻辑大大简化
计算中间结果落到磁盘，IO及序列化、反序列化代价大	计算中间结果在内存中，维护存取速度比磁盘高几个数量级
Task以进程方式维护，需要数秒启动时间才能启动任务	Task以线程方式维护对于小数据集读取能够达到压秒级别

spark为什么比MR快：

Spark积极使用内存。MR框架中一个job只能拥有一个map task 和一个reduce task。如果业务处理逻辑复杂，一个map和一个reduce是表达不出来的，这时就需要将多个job串联起来，然后前一个job的计算结果必须写道hdfs才能交给下一个job。这样一个复杂的运算，在MR框架中会发生很多次的写入、读取操作；Spark框架则可以把多个map reduce task组合起来一起连续执行，中间计算结果不需要落盘。
MR是多进程模型，而Spark Task是基于线程的。MR框架中的map task, reduce task都是jvm进程，每次启动都需要申请资源，消耗必要的时间。spark则是通过复用线程池中的线程来减少启动、关闭task所需要的系统开销。

spark系统架构

在这里插入图片描述

Cluster Manager: 集群资源的管理者。spark支持多种集群部署模式：Standalone 、Yarn、Mesos
Worker Node 工作节点，管理本地资源
Driver Program 运行main方法并创建了sparkContext.由cluster manager 分配资源，spark context 发送task到executor上执行
executor: 在工作节点上运行，执行driver发送的task，并向driver汇报计算结果

spar安装部署

本地模式 local
standalone模式
spark on yarn cluster/client模式：区别在于driver在什么上
spark on mesos
粗粒度模式：每个应用程序的运行环境由一个driver和若干个executor组成，其中executor占用若干资源，内部可以运行多个task。应用程序的各个任务正式运行之前，需要将运行环境中的资源全部申请好，且运行过程中要一直占用这些资源，即使不用，最后程序运行结束后，回收这些资源。
6.细粒度模式：鉴于粗粒度模式会造成大量的资源浪费，spark on mesos还提供了另外一种调度模式：细粒度模式，思想是按需分配。

猜你喜欢

转载自blog.csdn.net/weixin_38813363/article/details/115123676

SPARK---Spark Core(1)

spark记录（1）spark Core之RDD

learning spark core concepts(1)

【Spark】(二) Spark Core

Spark Core

10.1 spark core — spark内核

Spark学习之Spark Core

【Spark】Spark Core 高级特性

[Spark 学习]--1.2 Spark core

【Spark】Spark Core 架构原理

spark(1)

Spark 的Core深入（二）

Spark Core 学习笔记

Spark core之BlockManager

spark core之BlockManagerMaser

2.Spark Core

spark core类梳理

spark core 日志屏蔽

spark_core

Spark Core 的RDD

Spark Core 操作

Spark Core基础01

Spark Core 的核心使用

Spark Core应用解析

Spark core 总结（一）

spark core 开发2

Spark Core 基础

spark core 进阶

spark core 核心RDD

Spark Core测试

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)