论文学习——基于Hadoop的水文时间序列相似性研究与应用

企业开发 2022-06-20 04:35:17 阅读次数: 0

文章目录

1 摘要
2 引言
3 MapReduce 计算模型
- 3.1 Hadoop体系结构
4 DTW 改进算法 FastDTW
- 4.1 介绍DTW算法
- 4.2 FastDTW 方法
5 水文时间序列相似性查找方法
- 5.1 水文数据的预处理
- 5.2 MapReduce过程

写在前面：《计算机与数字工程》；

作者：顾昕辰、万定生

在这里插入图片描述

1 摘要

传统DTW算法复杂度高，特别是当处理海量数据时，耗时长，效率低下。
本文是从算法和实现手段两个方面提高水文时间序列相似性比较效率，提出基于Hadoop平台，以FastDTW方法实现的水文时间序列相似性查找方法。
【算法是对DTW进行优化，提出FastDTW；然后实现手段方面的优化是Hadoop分布式平台】
实现步骤：
① 利用小波变换，对数据去噪；
② 对水文时间序列进行语义化
③ 在Hadoop的 MapReduce 过程中调用，FastDTW方法实现 DTW 距离的云计算，得到与查询序列最相似的匹配序列。

2 引言

水文数

在进行相似性比较时，会遇到：两个时间序列的总体趋势比较相似，但是相似的部分在时间轴上并不是对齐的。
DTW能有效的解决这个问题，它可以将时间轴进行弯曲，使得相似性比较更加关注趋势相似，而不是简单的点距离相似。

Hadoop平台作为云计算思想的具体实现，使
得复杂的运算能在多台机器上并行执行，缩短运算用时。同时，它具有良好的扩展性、健壮性，使得数据挖掘高效且可靠。
Apache Hadoop是一个用Java语言实现的软件框架，实现由大量普通商用计算机组成的集群，并在集群中对大量数据进行分布式处理。

3 MapReduce 计算模型

在这里插入图片描述

3.1 Hadoop体系结构

在这里插入图片描述

4 DTW 改进算法 FastDTW

DTW 采用动态规划来计算两个时间序列之间的相似性，算法的复杂度是 $O(N^2)$
本文采用的是文献5中的FastDTW

（1）首先将两个时间序列 粗粒度化，寻找最短DTW路径；
（2）然后将路径及其周围的点，逐步细粒度化，并再次寻找最短DTW路径；
（3）最终，求出原序列间的DTW距离。

4.1 介绍DTW算法

在时间序列中，需要比较相似性的两段时间序列的长度可能并不相等；
另外，不同时间序列可能仅仅存在时间轴上的位移，在还原位移的情况下，两个时间序列变化趋势是一致；

在这里插入图片描述

4.2 FastDTW 方法

粗粒度化
采用PAA方法，通过对时间序列等宽度分割，然后用均值来表示这一段的值。
投影
在较粗粒度上对时间序列进行DTW算法。求出最短DTW距离对的规整路径。
细粒度化
将在较粗粒度上得到的规整路径，经过方格进一步细粒度化，同时为了避免由于粒度的 过度粗糙 造成的路径偏差。

在这里插入图片描述

5 水文时间序列相似性查找方法

5.1 水文数据的预处理

小波去噪
通过小波变换，可以将水文时间序列分解成确定成分和随机成分，除了可以进行原始序列 主周期识别以外，还能对序列的突变特征进行识别。

在这里插入图片描述

水文时间序列语义化
寻找水位时间序列中，特征明显的极大极小值，作为对序列语义化的依据。
按照时间顺序，将极值点之间的水文，上升段记为U，下降段记为D。
极值点的定义
考虑到小波去噪之后，序列波形中仍存在一些小幅度波动。为了提取出特征明显的极值点：

在这里插入图片描述

在这里插入图片描述
④ 的重要性可以看上图，可以看出时间点1和时间点2是不应该算成极值点的，这两个波动是不需要被关注的，对于整体的趋势是没有太大意义的。

所以说，阈值 r 至少要占到 2/3的max 吧。

UD 分段的定义：（也就是语义化）

在这里插入图片描述

5.2 MapReduce过程

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42521185/article/details/125367081

论文学习——基于Hadoop的水文时间序列相似性研究与应用

论文学习——基于语义相似的水文时间序列相似性挖掘

论文学习——水文时间序列相似性查询的分析与研究

论文学习——基于优化DTW算法的水文要素时间序列数据相似性分析

论文学习——基于XGBoost算法的多元水文时间序列趋势相似性挖掘

论文学习——一种基于DTW聚类的水文时间序列相似性挖掘方法

论文学习——分段时间序列相似性研究与应用

论文学习——多度量水文时间序列相似性分析

论文学习——基于模式距离度量的时间序列相似性搜索

论文学习——基于斜率表示的时间序列相似性度量方法

论文学习——基于极值点特征的时间序列相似性查询方法

论文学习——基于降雨类型直方图分析的降雨站点相似性研究

论文学习——多元时间序列相似性度量方法

章硕士论文学习——第二章数据挖掘中的聚类方法+时间序列相似性分析

时间序列相似性

论文学习——基于滑动窗口预测的水文时间序列异常检测

论文学习——水文时间序列模体挖掘

论文学习——鄱阳湖星子站水位时间序列相似度研究

时间序列曲线相似性

专利学习——一种基于变量相关性的多元时间序列相似性搜索方法

十二，时间序列趋势相似性度量方法的研究-DPM

论文学习——基于知识粒度的时间序列异常检测研究

论文学习——时间序列数据挖掘中的动态时间弯曲研究综述

论文学习——时间序列的距离模式

序列相似性比对（1）

离散序列的相似性度量

基于深度学习时间序列分类研究综述[论文阅读]

论文学习——黄河源区气象水文序列突变点诊断

基于Python计算余弦相似性

论文学习——一种基于DTW的符号化时间序列聚类算法

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)