论文学习——基于XGBoost算法的多元水文时间序列趋势相似性挖掘

写在前面:《计算机科学》;中文核心期刊;月刊

作者:丁武、马媛

在这里插入图片描述

1 摘要

  1. 针对传统神经网络进行水文预测,得出结果不具备解释器等等不足
  2. 本文提出一种基于机器学习算法的水文预测方法,旨在利用XGBoost机器学习算法,建立参照期与预见期之间的水文特征相似度映射模型,从而在历史水文时间序列中匹配出与预见期水文趋势最相似的序列。
  3. 数据:太湖水文时间序列数据

2 研究背景

在这里插入图片描述

  1. 时间序列相似性度量是时间序列数据挖掘的重要分支;
  2. 其中,时间序列相似性度量又分为单特征的一元时间序列相似性度量多元时间序列相似性度量

2.1 单特征的一元时间序列相似性度量

  1. 欧式距离法
  2. 基于斜率表示方法【张建业、潘泉】
  3. 基于形态的度量方法
  4. 增量动态时间弯曲法

2.2 多元时间序列相似性度量

Similarity measure for multivariate time series based on dynamic time warping
这篇论文,提出了一种基于动态时间规整的相似度度量方法。

Similarity measure for heterogenous multivariate time-series
这篇论文针对不满足“长度匹配”或“轴向拉伸”的时间序列相似度量问题,提出了一种基于最长公共子序列的度量法。

在这里插入图片描述
[7] 结合最大边际分析(LMNN)与 动态时间扭曲(DTW)的多元时间序列相似性度量
步骤:首先对多元时间序列,采用基于马氏距离的DTW测量方法(通过马氏距离矩阵来衡量变量之间距离)其次向LMNN 算法模型输入马氏矩阵,通过迭代最小化损失函数训练模型。

[8] 将多元水文时间序列的研究,转为一元时间序列相似性度量,降低了数据计算的复杂度
首先用一元时间序列度量算法,计算出多元时间序列中 各单特征的相似度,再利用BORDA 计数法 综合各但序列相似性度量的结果,得到多元水文时间序列相似性度量。

2.3 小结

  • 能否找到与数据匹配最佳的挖掘算法,对相似性挖掘模型有着关键的影响。
    在这里插入图片描述

3 (重点)本文之基于机器学习的多元水文时间序列数据挖掘

3.1 一元时间序列相似性度量

  • 锁步度量法
    在两个长度一致的时间序列之间进行相似性度量
    例如欧式距离(ED)

  • 弹性度量法
    在两个长度不一致的时间序列之间进行相似性度量
    例如动态时间规整(DTW)

3.2 多元时间序列相似性度量

  • 多元时间序列降维算法
    例如,主成分分析法,将高维数据降为低维数据;
    以及拆分为单特征的意愿时间序列相似性度量

  • 利用数据降维的思想,把高维的时间序列数据,降维成一维时间序列数据
    常用的线性降维算法: PCA(主成分分析法)、线性判别分析法、多维尺度变换法

  • BORDA 计数法
    将多元时间序列相似性度量,拆分为单列时间序列相似度量和BORDA计数法两个步骤。

在这里插入图片描述

4 (重点)基于相似度的未来水文趋势预测模型

水文时间序列趋势预测挖掘,旨在在历史水文时间序列数据中,挖掘出时间序列变化的趋势,并作出预测。

例如可以通过现时刻的水情,来预测未来时间段的水情,从而辅助防汛调度部门作出相应的防汛调度决策。

4.1 利用机器学习,获取训练数据

  1. 按照一定抽样间距时间长度进行取样得到样本集,(每个时间序列样本由参照期和预见期组成)
  2. 在样本集中,依次取出一个样本作为目标样本,其余样本作为参照集;按照单列时间序列相似性度量算法,计算出目标样本和 每个参照样本 在参照期与预见期各列的相似度。
  3. 以参照期各列相似度,作为模型的输入数据,预见期各列相似度作为模型的输出数据,组成机器学习算法的训练数据集。

4.2 算法流程

在这里插入图片描述

5 实验验证与分析

在这里插入图片描述

  • 说实话,方法花里胡哨,对我来说有点复杂了,感觉阅读不下去!
  • 好的包北,我们就下一篇!

猜你喜欢

转载自blog.csdn.net/weixin_42521185/article/details/125329220