2022年亚太数学建模竞赛-问题C:全球变暖与否?-思路详解

一、题目分析

数据分析典中典,数据量适中,主要考察预测模型,另外还需要收集额外的数据辅助建模和判断。

要求

1.你同意全球气温的说法吗?使用2022_APMMC_C_Data。csv以及您的团队收集的其他数据集,以分析全球温度变化。

a) 你是否同意2022年3月全球气温的升高导致了比以往10年期间观察到的更大的增长?为什么?

b) 根据历史数据,请建立两个或更多的数学模型来描述过去并预测未来的全球气温水平。

c) 使用1(b)中的每个模型分别预测2050年和2100年的全球气温。您的模型是否同意2050年或2100年观测点的平均全球温度将达到20.00°C的预测?如果不是在2050年或2100年,您的预测模型中观测点的平均温度何时会达到20.00°C?

d) 您认为1(b)中构建的哪个模型最准确?为什么?

2.影响温度变化的原因是什么?

a) 使用问题1的结果和附件2022_ APMMC_C_数据以及您团队收集的其他数据集,建立数学模型来分析全球温度、时间和位置之间的关系(如果有),并解释关系或证明它们之间没有关系。

b) 请收集相关数据并分析自然灾害的因素(如火山爆发、森林火灾和新冠肺炎)。对全球气温有影响吗?

c) 你认为影响全球气温变化的主要原因是什么?

d) 你认为有什么措施可以遏制或减缓全球变暖吗?

任务一思路

(a)判断2022年3月全球气温的升高是否导致了比以往10年期间观察到的更大的增长

这一问主要是数据分析与判断,然而在开始分析数据之前要先进性适当的预处理。

编辑切换为居中

csv

首先,我们观察数据,发现数据列不多,只有日期、平均温度、平均温度不确定度以及对应的国家城市和经纬度。

注意这里的“不确定度”:不确定度的含义是指由于测量误差的存在,对被测量值的不能肯定的程度。反过来,也表明该结果的可信赖程度。它是测量结果质量的指标。不确定度越小,质量越高,水平越高,其使用价值越高;不确定度越大,测量结果的质量越低,水平越低,其使用价值也越低。在报告物理量测量的结果时,必须给出相应的不确定度,一方面便于使用它的人评定其可靠性,另一方面也增强了测量结果之间的可比性。

编辑切换为居中

不确定度的计算

这个指标将是我们衡量给出的温度是否准确的依据。

编辑切换为居中

数据集

数据集显示,在部分年份出现了大量的数据缺失,需要补齐数据。

对于缺失值的填补可以采用:热卡插补、拟合插补、多重插补法等。

在我们对给定的数据进行了数据预处理后,惊奇的发现,官方给出的数据集太古早了,最新只有2013年,这与(a)问题中提到的2022,过去10年都没有交集。于是需要通过查找今年的温度数据,进行分析。

这里给大家提供一些公开可免费下载的数据集:

编辑切换为居中

添加图片注释,不超过 140 字(可选)

1.Temperature data (HadCRUT, CRUTEM,, HadCRUT5, CRUTEM5) Climatic Research Unit global temperature

HadCRUT4是一个全球温度数据集,提供全球网格化温度异常以及半球和整个地球的平均温度异常。CRUTEM4和HadSST3分别是该整体数据集的陆地和海洋组成部分。

这些数据集由气候研究单位(东英吉利大学)与哈德利中心(英国气象局)共同开发,除了由哈德利中心独家开发的海面温度(SST)数据集。这些数据集将以大致每月的间隔更新到未来。作为月度和年度值的半球和全球平均值可作为单独的文件提供。

原文链接:全球气温数据集(.nc数据的打开方法)_小猿猴GISer的博客-CSDN博客_温度数据集

编辑切换为居中

添加图片注释,不超过 140 字(可选)

Global climate and weather data — WorldClim 1 documentation

我们选取2012-2022(即近十年)的温度变化数据,可视化如下:

编辑切换为居中

添加图片注释,不超过 140 字(可选)

编辑切换为居中

添加图片注释,不超过 140 字(可选)

编辑切换为居中

添加图片注释,不超过 140 字(可选)

判断标准:是否在2022年3月节点上出现了异常的上升(即如上图所示的波动趋势)

除了简单直接的可视化方法,还可以通过计算平均年上升率、均值对比等方法。

结合相关资料和数据分析结果,答案是肯定的。近几年随着温室气体浓度不断上升,热量不断累积,过去八年有望成为有气象记录以来最热的八年。

b) 根据历史数据,请建立两个或更多的数学模型来描述过去并预测未来的全球气温水平。

常见的预测模型有RNN,LSTM,GRU等神经网络模型,ARIMA模型等时间序列预测模型,还有GM(1,1)、回归模型,随机森林模型等。

我们最好选取三个不同类别的模型来搭建,根据文献资料,LSTM,ARIMA,GM(1,1)效果在气温预测方面还是不错的。

这里我们用插补好的2013年之前数据+自己补充的2013-2022年数据或者选择近几年数据来预测均可。但是要注意题目里提到,不仅要预测未来,还要描述过去。

所以选择模型之后要先去适应训练已知数据,并通过可视化和参数调优等方法来对历史数据进行适当的描述。

c) 使用1(b)中的每个模型分别预测2050年和2100年的全球气温。您的模型是否同意2050年或2100年观测点的平均全球温度将达到20.00°C的预测?如果不是在2050年或2100年,您的预测模型中观测点的平均温度何时会达到20.00°C?

这里需要把全球同一时间的温度取平均值然后再对年取平均,构造全球的新温度数据集,然后分别代入各个模型,导出预测数据。

事实上,全球平均气温应该是很低的,这里意思应该就是只是大陆气温不去管那些两级地区。

编辑切换为居中

海陆全球气温变化

预测结果:

预测-2100

照这种趋势发展下去,等到本世纪末,全球气温将增长足足5℃。

d) 您认为1(b)中构建的哪个模型最准确?为什么?

模型评价,预测模型评价除了预测准确率外一般用RMSE/AME 等评价指标,此外还可测试模型的稳定性(加入噪声等)和敏感度。综合选出预测性能最优的即可。

任务2.影响温度变化的原因是什么?

a) 使用问题1的结果和附件2022_ APMMC_C_数据以及您团队收集的其他数据集,建立数学模型来分析全球温度、时间和位置之间的关系(如果有),并解释关系或证明它们之间没有关系。

首先我们从最简单也最直观的方法开始,计算题目中限定的这些变量的相关系数,绘制热力图,判断他们之间有无线性相关关系。

接着,我们分别探讨温度与时间/温度与位置之间的关系。与时间的关系可以从时间序列分析的角度入手,通过差分、计算自相关性、逻辑回归权数等方法寻找关系。温度与位置之间的关系,最好用热力图可视化出来,去观察颜色的分布,查看是否能找到分布规律。

除此之外,我们还可以进行时空分析,时空关联性分析是研究空间对象随时间的变化规律,反映时空数据在时间和空间上的关联性,时空关联规则挖掘作为时空关联性分析的主要方法之一,目前已有不少学者对其进行了研究或应用。

b) 请收集相关数据并分析自然灾害的因素(如火山爆发、森林火灾和新冠肺炎)。对全球气温有影响吗?

既然问题这么问了,那么肯定就是有关系。我们可以将额外收集的数据作为和时间关联的变量插入原始数据集,然后分析数据列之间的相关性。

插入方法示例1:比如我们导入新冠肺炎,那么时间列2019年前这个数值可以作为0(因为没有),2020-2022可以记为1,表示存在这个事件。

插入方法示例2:比如我们导入火山喷发的频数,每个时间(年份)值对应一个频数值,表示火山爆发的频数。

c) 你认为影响全球气温变化的主要原因是什么?

基于b)的分析结果,找到对全球气温影响最大的灾害。然后结合资料文献去总结一下。

d) 你认为有什么措施可以遏制或减缓全球变暖吗?

针对我们前面得到的结论,针对性地提出措施。

完整思路详解+参考代码+搜集整理好的数据集放在评论区~

猜你喜欢

转载自blog.csdn.net/lichensun/article/details/128028645
今日推荐