“华为云杯”2020深圳开放数据应用创新大赛 ·粤港澳大湾区强降水临近预测赛题相关资料整理

“华为云杯”2020深圳开放数据应用创新大赛 ·粤港澳大湾区强降水临近预测赛题相关资料整理


在这里插入图片描述

Fate whispers to the warrior,
‘You CANNOT withstand the storm.’
The warrior whispers back,
'I AM THE STORM!!'

数据萌新JerryX由于课业繁忙,仔细思索了一下,发现并没有什么没时间打华为云杯的比赛了,所以把自己整理好的一些赛题资料和对于赛题更详细的整理,希望给各位参赛选手带来一点参考!!欢迎大家关注支持!也期待赛后能够看到各位大佬选手的精彩算法!!

0. 赛题背景

粤港澳大湾区包括深圳、香港、广州、澳门等重要城市和地区,是中国经济活力最强、开放程度最高的区域之一,在国家发展大局中具有重要的战略地位。粤港澳大湾区独特的地理与气候因素,使其经常遭受各类强降水天气的影响,给经济发展、社会安全带来了较大影响。因此,如何准确地预报强降水天气成为人们亟需解决的问题。本赛题寄希望于日益兴起的人工智能技术,通过从历史气象雷达回波格点数据中进行粤港澳大湾区强降水临近预测,为粤港澳大湾区政府部门防灾减灾提供强降水防御决策支撑依据,为经济发展与社会安全作出贡献。

1. 赛题说明

本赛题 根据近年的雷达回波格点数据共同建立的标准雷达数据集为基础划分了训练集和测试集,希望参赛者综合运用计算机视觉、机器学习、深度学习等技术,实现根据过去2个小时内的雷达回波图像数据预测未来2小时的雷达回波图像变化,并提交未来30分钟、60分钟、90分钟和120分钟的雷达回波 图像数据。

2. 数据说明

大赛采用标准雷达数据集作为比赛数据集,该数据集由深圳市气象局在2020年通过数据质量控制、雷达数据脱敏等处理和开发的(英文译名为Standardized RAdar Dataset 2020 (SRAD2020),以下简称“该数据集”),以灰度图PNG格式进行存储,旨在促进基于该数据集的研究和相关数据处理方法的发展。

2.1 数据规则

2.1.1. 标准雷达数据集SRAD2020说明

(a)雷达数据个案样本:每个雷达数据个案样本覆盖时长为4小时时间间隔为6分钟,共41个时次
(b)垂直层次:共1层,海平面高度2.5km
(c)水平网格点范围:雷达数据样本水平分辨率为0.01度(约1km)、网格数量为256*256(即约255km×255km的区域),如下图所示:
在这里插入图片描述
(d)数据内容:雷达回波格点数据经过质量控制,数据范围0-80(单位:dBZ),缺测值为255。

注:“dBZ”雷达反射率因子是表示雷达回波强度的一个物理量。
"dB"是分贝(decibel的缩写),也可以理解为一个运算符号,dBZ 和Z的换算关系是:dBZ = 10 log(Z)。

下面来康康度娘是怎么解释dbz的吧:

“dBZ”是表示雷达回波强度的一个物理量。"dBZ"可用来估算降雨和降雪强度及预测诸如冰雹、大风等灾害性天气出现的可能性。一般地说,它的值越大降雨、降雪可能性越大,强度也越强,当它的值大于或等于40dBZ时,出现雷雨天气的可能性较大,当它的值在45dBZ或以上时,出现暴雨、冰雹、大风等强对流天气的可能性较大。当然,判断具体出现什么天气出现时,除了回波强度(dBZ)外,还要综合考虑回波高度、回波的面积、回波移动的速度、方向以及演变情况等因素。"Z"是雷达反射因子,与雨滴谱直径的六次方成正比,单位是mm6/m3;"dB"是分贝(decibel的缩写),也可以理解为一个运算符号,dBZ 和Z的换算关系是:dBZ = 10 log(Z)
在这里插入图片描述

2.2. 雷达数据存储格式

(a)档案格式:
雷达样本数据以灰度图PNG格式存储,每个时次存为一张PNG格式的图片,每个样本共有41个时次。
(b)雷达数据集文件命名规则:
雷达数据集文件名是经过加密处理,以序列号进行命名,基本规则为:
RAD[3字元][############## 15位序列号][000-040].png;
例如:其中一个数据样本文件名为:
该样本第1个数据文件为RAD_000000000001000_000.png,
该样本第2个数据文件为RAD_000000000001000_001.png;
……
该样本第41个数据文件为RAD_000000000001000_040.png;

2.3 标准雷达数据集读取程序

标准雷达数据集的图像文件读取程序,该程序从图片上获取各像素点的色值(其R,G,B同为一个值),该值即为雷达回波的数值。
(a)C#代码例子:
在这里插入图片描述
(b)Python代码例子:

在这里插入图片描述

2.4 注意事项

对于预报数据,使用者须以上述的PNG格式编码(256*256像素,R,G,B为同一值),网格点数目、覆盖范围和分辨率须与原来的雷达数据相同,覆盖数值范围和缺测值亦必须符合上述要求(即正常预测数值应在[0,80]区间,缺测值为255)。

文件清单和使用说明
本次比赛提供的数据集中包含了训练集和测试集,点击此处 可以下载数据集,解压后目录结构说明如下:
在这里插入图片描述

3. 评分标准

比赛分为初赛、决赛和总决赛。初赛时间为2020年5月5日至2020年6月19日,优胜选手进入决赛。决赛时间为2020年7月1日至2020年7月10日,优胜选手参加最后总决赛。初赛和决赛以预测结果提交为主要形式,总决赛以答辩为主要形式。初赛和决赛过程中,每个团队每天有3次评测机会,所提交的预测得分可在大赛平台页面“提交作品”中查询。排行榜每6个小时刷新一次

选手提交的预测图片的每个像素点有效预测数值应在[0,80]区间缺测值为255。预测图片和实际图片中的有效预测数值将以{20, 30, 40, 50}为阈值划分为5个类别
其中:类别1对应取值区间为**[0,20];类别2对应取值区间为(20,30];类别3对应取值区间为(30,40];类别4对应取值区间为(40,50];类别5对应取值区间为(50,80]缺测值不计入评分。
并将一对图片(包括一张真实雷达图和一张对应的预测雷达图)映射成以下多类别级联表:
在这里插入图片描述
其中
n(Fi,Oj)表示预测类别为i的像素点中真实类别为j的像素点总数**,N(Fi)表示预测为类别i的像素点总数,N(Oj)表示真实类别为j的像素点总数,N为像素点总数。
比赛评估过程中,将根据上述级联表采用Heidke skill score(HSS)指标对单张预测图片进行评分,所有预测图片的总分视为最终得分。比赛结束后,将根据各参赛选手的最终评分,按照从高至低的顺序选取优胜者。
此外,考虑到不同预报时效降雨强度的预测难度,官方将对评分进行权重调整预报时间间隔越长、降雨越强,则权重越高(比如未来120分钟的预报数据权重高于未来90分钟的预报数据,称为预报时间间隔权重;强降雨数据权重高于弱降雨数据权重,称为降雨强度权重)。
单张预测图片的评分公式如下所示(式中wj表示第j个分类的权重,即降雨强度权重,K为类别总数,本赛题中类别总数为5):
在这里插入图片描述
总评分公式如下所示(式中M表示总图片数量;w_i^'表示第i张预测图片对应时段的权重,即预报时间间隔权重):
在这里插入图片描述

4. 提交说明

选手根据测试集的文件夹数量(每个文件夹包含一组图片),建立相同数量的预测数据文件夹(预测数据文件夹命名为“Predict”,打包并提交zip文件),其中子文件夹名称与测试集文件夹中子文件夹名称一致,每个子文件夹内包含4张PNG格式的雷达图(格式与已提供的雷达图一致),分别对应每组最后一张雷达图所对应时间的未来30分钟、60分钟、90分钟和120分钟的降水预测雷达图,文件名分别为“30.png”、“60.png”、“90.png”和“120.png”。
命名方式如下表所示:
在这里插入图片描述
选手建模过程需科学合理,且具有可复现性,优胜选手需提交比赛过程中涉及的各类数据处理脚本、模型等成果及必要的文档等。

参考链接:
DBZ百度百科
交叉新趋势|采用神经网络与深度学习来预报降水、温度等案例
IEEE ICDM 2018 全球气象AI挑战赛的分享
雷达回波外推和施行健的两篇降水预测文章介绍
IEEE ICDM 2018 GLOBAL AI CHALLENGE ON METEOROLOGY(CUHKSZ_Group 1st Place)
追风baseline

猜你喜欢

转载自blog.csdn.net/weixin_43945120/article/details/105708495