Introduction to Big Data with Apache Spark——week2课题笔记 - 代码天地

Introduction to Big Data with Apache Spark——week2课题笔记

其他 2018-07-30 14:59:08 阅读次数: 0

SparkContext

这里写图片描述

RDD

这里写图片描述

这里写图片描述

这里写图片描述

代码：

直接使用python的数据类型创造：

这里写图片描述

从外部文件创造：
这里写图片描述

扫描二维码关注公众号，回复： 2461217 查看本文章

Transformations

这里写图片描述

代码：

这里写图片描述

这里写图片描述

Action

这里写图片描述

代码：

这里写图片描述

这里写图片描述

Cache

这里写图片描述

Spark流程

这里写图片描述

其他注意

1. key-value类型

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

2. 共享变量

2.1 广播变量

其实就是定义了一个只读的全局变量，给所有机子缓存一份。

共享变量允许程序员将一个只读的变量缓存在每台机器上，而不是让每个任务随带一个变量的副本。广播变量为在每个节点上提供海量的输入数据集提供了一种高效的方式。Spark会尝试使用高效饿广播算法来减少分发广播变量的通信消耗。

广播变量通过调用SparkContext.broacase(v)创建, v是一个变量。广播变量是v的封装, v的值可以通过value方法访问。

代码：

broadcastVar = sc.broadcast([1, 2, 3])
broadcastVar.value

out:[1, 2, 3]

2.2 累计器

累计器是只能通过关联操作做“加”运算的变量，从而可以高效支持并行。它可以用来实现计数器或者求和。Spark原生支持数字类型的累计器，程序员可以增加对新类型的支持。如果累加器创建时赋给了一个名字，那么这个累加器会在Spark的UI上展现。这个有利于理解程序的执行过程（遗憾的是这个功能Python中暂不支持）。

累计器通过调用函数SparContext.accumulator(v)并赋予一个初值来创建。然后跑在集群上的任务就可以使用add方法或者+=运算符增加累计器的值。但是，任务是不能读这个累计器的值得，只有驱动程序才可以通过方法value来读。

代码：

accum = sc.accumulator(0)
sc.parallelize([1, 2, 3, 4]).foreach(lambda x:/ 
                                     accum.add(x))
accum.value

out:10

总结

这里写图片描述

猜你喜欢

转载自blog.csdn.net/qq_27157975/article/details/78685485

Introduction to Big Data with Apache Spark——week2课题笔记

Big Data Tech and Analytics --- Introduction

IBM: Introduction to Data Science Quiz answer week2

Coursera: Introduction to Data Science in Python Week2 Assignment

Coursera: Introduction to Data Science in Python Week2

Coursera, Big Data 4, Machine Learning With Big Data (week 1)

笔记：Introduction to Data Science in Python

Introduction to Big Real Mode

Big Data

New Apache project will Drill big data in near real time

Spark - 大数据Big Data处理框架

Big Data （二）：Spark入门教程

【Big Data 每日一题】目录

【Big Data 每日一题20181028】

【Big Data 每日一题20181024】

【Big Data 每日一题20181027】

【Big Data 每日一题20181026】

【Big Data 每日一题20181025】

【Big Data 每日一题20181023】

【Big Data 每日一题20181022】

Coursera, Big Data 5, Graph Analytics for Big Data, Week 3/4

Big Data技术综述

big data 自学路线

big data study &environment

Big Data常识

A Small Definition of Big Data

Big Data Trends

Big Data Landscape 2018

MS Big Data Solution

big data env setup

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)