spark分析天气数据--涉及的知识点

一. 实验内容和要求

给定气象数据集(ftp://ftp.ncdc.noaa.gov/pub/data/noaa上2018年中国地区监测站的数据)cndcdata.zip,编写spark程序实现以下内容:

1、从每一条气象数据中提取到记录时间、经度、纬度、温度、湿度、气压等信息组成一条新的记录。(数据说明见附录)

2、找出温差最大的观测点。

二.分析

1.数据分析

1.原始数据

第一条数据:

0169501360999992018010100004+52970+122530FM-12+043399999V0201401N00101026001C9004700199-02041-02321102941ADDAA124001531AJ100003100000099GA1081+026001101GA2999+999999101GA3999+999999101GE19MSL+99999+99999GF108991081999026001999999MA1999999097051MD1210061-0101REMSYN004BUFR

第二条数据:

0089501360999992018010318004+52970+122530FM-12+043399999V0203601N0000199999999008000199-02681-02991103291ADDAA106999999AA224999999AY101061AY201061MA1999999097371MD1710071+9999MW1051REMSYN004BUFR

第三条数据:

0148501360999992018010509004+52970+122530FM-12+043399999V0202901N0010122000199030000199-01741-02171102081ADDAA106999999AA224999999GA1011+026001101GA2999+999999101GA3999+999999101GE19MSL+99999+99999GF101991011999026001999999MD1710011+9999REMSYN004BUFR

形式为如图:每行代表一条数据

2.对数据分析

提取出关键数据

分析数据得

每行数据的信息有以下规律:

日期     在第15-23个字符

经度     在第35-41

维度     在第29-34

温度     在第89-92  其符号位在:87

湿度     在第95-98  其符号位在:93

大气压值 在第99-104

3.数据提取后的数据形式

 日期    经度  纬度 温度 湿度 大气压值

(20180101,122530,52970,-204,-232,10294)

(20180101,122530,52970,-165,-205,10292)

(20180101,122530,52970,-127,-178,10284)

2.利用spark与scala进行数据分析

(1)对数据进行过滤---filter算子

(2)利用表格型数据结构DataFrame存储数据

df.orderBy(-df("col2")).show ---按第二列数据的大小进行降序排列
df.orderBy(df("col2")).show ---按第二列数据的大小进行升序排列

(3)groupByKey()算子按键的大小

https://blog.csdn.net/weixin_38963816/article/details/80284727

https://blog.csdn.net/dkl12/article/details/80961981

https://blog.csdn.net/weixin_38963816/article/details/80284727

猜你喜欢

转载自www.cnblogs.com/Aiahtwo/p/12801447.html