大数据:sparkSQL,历史,DataSet,DataFrame,sparkSession

大数据:sparkSQL

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


大数据:sparkSQL

在这里插入图片描述
在这里插入图片描述
学习原理,加语言
这是企业最需要用的,实用编程

在这里插入图片描述
在这里插入图片描述

RDD不一样,它可以处理结构化,非结构化的一切数据

而单独处理结构化的最好是sparkSQL

在这里插入图片描述
目标就是为了挣钱
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

sparkSQL与hive的对比

在这里插入图片描述
都是分布式sql计算引擎
在这里插入图片描述
sparkSQL借鉴了pandas玩
所以能处理sql,也能处理python

pandas是单机处理的
而sparkSQL是可以分布式运算的
美滋滋

在这里插入图片描述
在这里插入图片描述
专注sql二维表结构处理
在这里插入图片描述
在这里插入图片描述
SQL叫结构化数据处理语言
当然就是sparkSQL最合适了

在这里插入图片描述
在这里插入图片描述
sparkSession对象内部就有sparkContext
去完成RDD的编程

to_DF转换成DataFrame
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

猜你喜欢

转载自blog.csdn.net/weixin_46838716/article/details/131065021