Spark 学习笔记 - 代码天地

Spark 学习笔记

编程语言 2018-05-09 20:44:44 阅读次数: 2

Spark基础及基本概念

1.Spark是什么？
a)集群计算
b)扩展了MapReduce
c)内存计算
2.Spark 组件
a)Spark Core
b)Spark SQL
c)Spark Streaming
d)MLlib(分类，回归，聚类，协同过滤)
e)GraphX 并行图计算
f)YARN
g)Mesos
3.Spark 核心概念
a)驱动器程序
b)RDD
c)SparkContext
d)Maven和sbt打包
RDD编程

1.RDD resilient distributed dataset弹性分布式数据集
2.创建RDD的两种方式
a)读取外部数据集
i.如：lines=sc.textFile(“README.md”);
b)在驱动器程序中对一个集合并行化
i.如：lines=sc.parallelize(List(“pandas”,”I like pandas”))
3.Spark 工作方式
a)从外部数据创建输入 RDD
a)使用如filter()之类的转化RDD，定义新的RDD
b)对需要重复使用的RDD执行persist()操作，持久化到内存中
c)执行动作方法触发并行计算，Spark 会在对计算优化后执行
4.Rdd操作
a)转化
i.XXXRDD.Map(x=x*x)
ii.XXXRDD.filter(line=>line.contains(“error”))
iii.XXXRDD.union(VVVRDD)
iv.flatMap
v.Distinct
vi.Intersection
vii.Subtract
viii.cartesian
ix.Collect
b)行动
i.Count
ii.Take
iii.saveAsTextFile()
iv.Reduce
v.Fold
vi.Aggregate()
vii.Collect
viii.Top
ix.takeSample
x.foreach
c)持久化persist()
键值对操作
1.转化方法
a)普通RDD通过map()方法转化为pairRDD
2.转化操作
a)针对单个pairRDD的转化操作
i.reduceByKey(func)
ii.groupByKey()
iii.combineBy
iv.。。。。
b)针对两个pairRDD的转化操作
i.subtractByKey
ii.Join
iii.。。。
3.聚合操作

猜你喜欢

转载自xiangkuifu-163-com.iteye.com/blog/2378599

spark学习笔记：Spark Streaming

Spark学习笔记： Spark Streaming

Spark学习笔记：Spark SQL

spark学习笔记01

Spark 学习笔记

spark学习笔记二

Spark学习笔记

spark学习笔记1

spark学习笔记4

spark学习笔记2

spark学习笔记3

spark学习笔记6

spark学习笔记5

Spark学习笔记（一）

Spark RDD学习笔记

spark学习笔记_1

学习笔记-Spark

Spark学习笔记（1）——

spark 学习笔记6

spark 学习笔记3

spark 学习笔记2

Spark Core 学习笔记

[Spark]学习笔记

Spark 学习笔记 1

Spark UDF 学习笔记

Spark学习笔记——1

spark学习笔记(一)

Spark SQL学习笔记

spark学习笔记（3）

Spark学习笔记(2)

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)