[Spark快速大数据分析]Spark基础 - 代码天地

[Spark快速大数据分析]Spark基础

其他 2019-09-01 22:38:39 阅读次数: 0

Spark分布式执行涉及的组件

每个Spark应用都由一个驱动程序来发起集群上的各种并行操作，驱动程序通过一个SparkContext对象访问Spark；驱动程序管理多个执行器节点，可以用SparkContext来创建RDD。

RDD(Resilient Distributed Dataset：弹性分布式数据集)

RDD特点

Spark中，对数据的所有操作不外乎：创建RDD、转化已有RDD、调用RDD操作进行求值。
Spark会自动将RDD中的数据分发到集群上，并将操作并行化执行。
Spark中的RDD是一个不可变的分布式对象集合

RDD两种创建方法

读取一个外部数据集。如sc.textFile("readme.md")
在驱动程序里分发驱动程序的对象集合（如list、set）。即把程序中一个已有集合传递给SparkContext的parallelize()方法。这种方法用的并不多，因为需要把整个数据集先放在一台机器的内存中。

RDD支持两种类型的操作——之一：转化操作(transform)

返回一个新的RDD的操作。
许多转化操作是针对各个元素的，但并不是所有的转化操作都是这样的。
常用转化操作filter()：接收一个函数，并将RDD中满足该函数的元素组成新的RDD。
常用转化操作map()：接收一个函数，把函数作用于RDD每个元素，所有函数返回结果组成了新的RDD。
还有一些伪集合操作：RDD中最常缺失的集合属性就是元素的唯一性。可以用RDD.distinct()来生成一个只包含不同元素的新RDD。但distinct的开销很大，因为所有数据需要经过网络进行混洗(shuffle).

RDD支持两种类型的操作——之二：行动操作 (action)

向驱动器程序返回结果或把结果写入外部系统的操作，会触发实际的计算。默认情况下，Spark的RDD会在每次对它们进行行动操作时重新计算。如果想在多个行动操作时重用同一个RDD，可以使用RDD.persist()把这个RDD缓存起来（持久化）。
RDD有一个collect()，可以用来获取整个RDD中的数据，但这要求RDD的数据是较小规模的。
常用行动函数reduce():接收一个函数作为参数，这个函数要操作两个相同类型的RDD数据并返回一个同样类型的新元素。一个简单的例子就是函数“+”。
比如count()

RDD支持两种类型的操作——相关

转化操作和行动操作的区别：计算RDD的方式不同：Spark只会惰性计算RDD：即所有转化操作只有第一次在一个行动操作中用到时，才会真正计算涉及到的转化和行动操作。
惰性求值：“我们不应把RDD看作存放着特定数据的数据集，而最好把每个RDD当作我们通过转化操作构建出来的、记录如何计算数据的指令列表”

猜你喜欢

转载自www.cnblogs.com/coding-gaga/p/11443982.html

[Spark快速大数据分析]Spark基础

spark快速大数据分析（2）

spark快速大数据分析

spark快速大数据分析（4）

spark快速大数据分析（3）

浅析spark快速大数据分析

spark快速大数据分析笔记-2

《Spark快速大数据分析》PDF版

spark快速大数据分析学习笔记（1）

Spark快速大数据分析——机器学习

《Spark快速大数据分析》总结--（3）

《Spark快速大数据分析》总结--（2）

《Spark快速大数据分析》总结--（1）

Spark数据分析基础

【Spark大作业】Spark快速大数据分析综合考察

基于Pycharm的Spark大数据分析

Spark---大数据分析引擎

Spark SQL快速离线数据分析

spark 数据分析

跟我一起学Spark之——《Spark快速大数据分析》pdf版下载

关于《Spark快速大数据分析》运行例子遇到的报错及解决

《Spark快速大数据分析》pdf格式下载电子书免费下载

Spark快速大数据分析(图灵程序设计丛书).epub

Spark 快速大数据分析 -垃圾邮件分类示例

《Spark快速大数据分析》终于搞到了，源码阅读的正确打开方式。

【大数据平台】基于Spark的气象数据分析

Spark大数据分析与实战笔记（第一章 Scala语言基础-3）

Spark大数据分析与实战笔记（第一章 Scala语言基础-2）

Spark大数据分析与实战笔记（第一章 Scala语言基础-1）

SPARK快学大数据分析概要

今日推荐

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

周排行

SVN同步出现问题

解决 nginx 出现 413 Request Entity Too Large 的问题

第一节区块链服务BaaS的总体架构以及基本模块设计的一种方案

ITeye 2013年度盘点——社区赠书书单

IDEA / git 和github 的新手使用教程史上最简单的 IntelliJ IDEA 教程史上最简单的 GitHub 教程

测试工程方法：测试用例设计综合策略

Spark优化(三)：对多次使用的RDD进行持久化

使用STM32 ST-LINK Utility 设置读保护后不能运行

exgcd 解同余方程ax=b(%n)

Android使用脚本进行多渠道打包

每日归档

更多

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)