spark快速大数据分析（3）

其他 2018-06-20 13:23:41 阅读次数: 2

spark官方文档中的快速入门指南：http://spark.apache.org/docs/latest/quick-start.html

本书的github仓库：https://github.com/databricks/learning-spark

__________________________________________

RDD基础

spark核心概念、核心抽象
弹性分布式数据集Resilient Distributed Database
分布式的元素集合

spark中，所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。

每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上。

RDD可以包含python、Java、Scala中的任意类型的对象，甚至可以包含用户自定义的对象。

RDD支持两种类型的操作：转换操作（transformation）和行动操作（action）。区别在于spark计算RDD的方式不同。spark会惰性计算RDD，只有第一次在一个行动操作中用到时，才会真正计算。

如果想在多个行动操作中重用同一个RDD，可以使用RDD.persist()让spark把这个RDD缓存下来，这样第一次对持久化的RDD计算后，spark会把RDD的内容保存在内存中（以分区方式存储到集群中的各机器上），在之后的行动操作中就可以重用这些数据。在任何时候都能进行重算是把RDD描述为“弹性”的原因。

每个spark程序或shell会话的工作方式：

从外部数据创建出输入RDD
使用诸如filter()这样的转换操作对RDD进行转化，以定义新的RDD
告诉spark对需要被重用的中间结果RDD执行persist()操作
使用行动操作（例如first()/count()）来触发一次并行计算，spark会对计算进行优化后再执行

--------------------------------------------------------

创建RDD

读取外部数据
在驱动器程序中对一个集合进行并行化（需要把整个数据集放在一台机器的内存中）

----------------------------------------------------------

RDD操作

转化操作（transformation）
行动操作（action）

转化操作返回的是新的RDD，行动操作返回的是其他的数据类型。

行动操作需要生成实际的输出，会把最终求得的结果返回到驱动器程序，或者写入外部存储系统中，会强制执行那些求值必须使用到的RDD的转化操作。

猜你喜欢

转载自blog.csdn.net/u014381464/article/details/80225247

spark快速大数据分析（3）

《Spark快速大数据分析》总结--（3）

spark快速大数据分析

spark快速大数据分析（4）

spark快速大数据分析（2）

浅析spark快速大数据分析

[Spark快速大数据分析]Spark基础

spark快速大数据分析笔记-2

《Spark快速大数据分析》PDF版

spark快速大数据分析学习笔记（1）

Spark快速大数据分析——机器学习

《Spark快速大数据分析》总结--（2）

《Spark快速大数据分析》总结--（1）

Python3实战Spark大数据分析及调度

Python3实战spark大数据分析及调度 ☝☝☝

【Spark大作业】Spark快速大数据分析综合考察

基于Pycharm的Spark大数据分析

Spark---大数据分析引擎

Spark SQL快速离线数据分析

关于《Spark快速大数据分析》运行例子遇到的报错及解决

《Spark快速大数据分析》pdf格式下载电子书免费下载

Spark快速大数据分析(图灵程序设计丛书).epub

Spark 快速大数据分析 -垃圾邮件分类示例

《Spark快速大数据分析》终于搞到了，源码阅读的正确打开方式。

跟我一起学Spark之——《Spark快速大数据分析》pdf版下载

Python3实战Spark大数据分析及调度（网盘分享）

Spark大数据分析与实战笔记（第一章 Scala语言基础-3）

大数据3-数据分析

【大数据平台】基于Spark的气象数据分析

SPARK快学大数据分析概要

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)