大数据：pyspark模块，spark core的RDD，RDD是弹性分布式数据抽象对象，RDD五大特性，wordcount案例展示RDD

业界资讯 2023-06-12 07:55:41 阅读次数: 0

大数据：pyspark模块

2022找工作是学历、能力和运气的超强结合体，遇到寒冬，大厂不招人，可能很多算法学生都得去找开发，测开
测开的话，你就得学数据库，sql，oracle，尤其sql要学，当然，像很多金融企业、安全机构啥的，他们必须要用oracle数据库
这oracle比sql安全，强大多了，所以你需要学习，最重要的，你要是考网络警察公务员，这玩意你不会就别去报名了，耽误时间！
与此同时，既然要考网警之数据分析应用岗，那必然要考数据挖掘基础知识，今天开始咱们就对数据挖掘方面的东西好生讲讲最最最重要的就是大数据，什么行测和面试都是小问题，最难最最重要的就是大数据技术相关的知识笔试

文章目录

大数据：pyspark模块

@[TOC](文章目录)

大数据：pyspark模块

spark core的RDD

RDD的五大特性

wordcount案例分析

总结

大数据：pyspark模块

在这里插入图片描述

这波pyspark是一个框架API
而不是第三方库，不是第三方代码
而是一个客户端

pyspark是交互式的客户端，可以写独立的程序
在这里插入图片描述

spark core的RDD

在这里插入图片描述

RDD就是一个抽象的数据对象
目的就是为了在分布式计算框架中统一调度

海量数据，在spark中均衡分布
RDD是spark中最核心的抽象对象
非常非常重要

在这里插入图片描述
弹性分布式数据集
不可变、分布式存储，可并行计算

普通的字典、列表，数组，都是在同一个进程内的数据集合
而RDD是分布式存储的，跨进程，跨机器存储的
RDD是弹性的，数据在内存和硬盘中，分区可以动态的增减
美滋滋

在这里插入图片描述

RDD的五大特性

RDD有分区
每个分片有计算方法，作用到每个分片之上
和其他的RDD有依赖关系，相互依赖
kv型RDD可以有分区器
RDD分区数据的读取，尽量靠近数据所在地
尽量少传输
在这里插入图片描述

sc是spark core
glom是分区的api
数据RDD本质还是会被分区的哦

在这里插入图片描述
因为你是分开存数据，调用函数时，当然要作用在每个分区上

在这里插入图片描述
逻辑就是代码
物理就是要作用于每一个分区之上

在这里插入图片描述

这本身就是程序处理过程中的依赖链条
相当于流水线处理
反正大家并行干活
但是每个过程都是依赖往下走的
最终成品车辆就是一步步搞出来的

在这里插入图片描述
key-value二元元组
就是字典

之前讲过，数据均衡

RDD可能不见得都是key-value型的
我们可以拿key来分区，但是非kv型没法分区

在这里插入图片描述
本地读取速度快
不要走网络，传输好麻烦
并行计算的能力为核心

wordcount案例分析

看看是怎么计算出来的
在这里插入图片描述
干活，三条路线分区走起

经过flatmap，仨分区都要作用函数，拉平

然后统计单词的个数
map

最后就是reduce了聚合
相同的放一起统计

在这里插入图片描述
然后收集数据

哈希规则分区器
默认分组
在计算过程中，就近读取
这就是RDD五大特性！！！

RDD：弹性分布式数据集（是一个数据抽象）
分区，并行

在这里插入图片描述

总结

提示：重要经验：

1）
2）学好oracle，即使经济寒冬，整个测开offer绝对不是问题！同时也是你考公网络警察的必经之路。
3）笔试求AC，可以不考虑空间复杂度，但是面试既要考虑时间复杂度最优，也要考虑空间复杂度最优。

猜你喜欢

转载自blog.csdn.net/weixin_46838716/article/details/131023555

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)