大数据:wordcount案例RDD编程算子,countByKey,reduce,fold,first,take,top,count,takeSample,takeOrdered

大数据:wordcount案例回顾RDD编程算子

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


大数据:wordcount案例回顾RDD编程算子

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
过滤
然后组合
取二元组即可
拼接
在这里插入图片描述

countByKey统计key出现次数

在这里插入图片描述
单词重新拼为单词,计数1
然后计数就行
在这里插入图片描述
dict
它不是RDD了
已经是action了
在这里插入图片描述
它是action算子了

在这里插入图片描述
reduce算子
在这里插入图片描述
这个不是RDD返回值了
跟之前的reduceByKey不同哦
在这里插入图片描述
聚合方式跟它一样
在这里插入图片描述
在这里插入图片描述
分区内,分区间作用的时候都会加初始值

在这里插入图片描述
少用
在这里插入图片描述
first,返回不是RDD,而是具体元素
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
take,前n个
在这里插入图片描述
返回时list
在这里插入图片描述
降序排序
然后取前n
在这里插入图片描述
元素内部直接比较
其他的需要自定义比较方法
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
不允许就gg
在这里插入图片描述
在这里插入图片描述
第一个参数说的是位置重复,而不是元素本身

在这里插入图片描述
默认升序
正常情况下你可以改数字
在这里插入图片描述


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

猜你喜欢

转载自blog.csdn.net/weixin_46838716/article/details/131032679