【spark】小试牛刀sparksql和rdd

企业开发 2023-04-08 15:08:28 阅读次数: 0

数据资料参考百度网盘：链接：https://pan.baidu.com/s/1nUj0NkKyHg0JoefJ_oz3ig?pwd=de8t
提取码：de8t

学习内容：

在spark shell中完成3个pdf文件中相应RDD基本操作
Patient3.csv中包含病历数据，字段分别为：pid, 身高，体重，腰围，舒张压，收缩压。请RDD操作分别统计以下值：
1)病人数量、平均身高、体重最大值、收缩压方差
2)按体重升序、舒张压降序排序并输出
温度.txt数据中包含一段时间的温度测量数据，数据说明如下：
a)第15-19个字符是年份
b)第45-50位是温度表示，+表示零上 -表示零下，且温度的值不能是9999，9999表示异常数据
c)第50位值只能是0、1、4、5、9几个数字
要求：采用Spark SQL实现获取每年的最低温度。

val df = spark.read.option("header", "true").format("csv").load("data/patients3.csv")
df.describe("height","weight","systbp").show()
df.orderBy(df("weight"),-df("diasbp")).show()

在这里插入图片描述

val temp_filter = temp.filter(s => (s!="")&&(s.substring(46,50)!="9999")&&(List(0,1,4,5,9).contains(s.substring(50,51).toInt))).map( line => {
    
    
  (line.substring(15,19).toInt,line.substring(45,50).toInt)
} ).groupByKey().map(values=>(values._1,values._2.min)).collect()

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/m0_58598240/article/details/128191287

【spark】小试牛刀sparksql和rdd

Spark DataFrame小试牛刀

tsung小试牛刀

Lombok小试牛刀

小试牛刀Matplotlib

ExecutorService小试牛刀

小试牛刀（初）

RabbitMQ小试牛刀

小试牛刀(二)

小试牛刀（一）

python小试牛刀

emmet小试牛刀

Vue小试牛刀

elasticsearch 小试牛刀

Nginx小试牛刀

php小试牛刀

springSecurity小试牛刀

lua小试牛刀

Django小试牛刀

webpack小试牛刀

Protobuf 小试牛刀

saltstack小试牛刀

LVS小试牛刀

LaTeX 小试牛刀

ThreadLocal小试牛刀

Linux小试牛刀

小试牛刀(5)

小试牛刀(3)

小试牛刀(4)

小试牛刀(6)

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)