使用熵进行时间序列复杂性分析 这是一种用几行代码来了解时间序列有多复杂的方法

每个数据科学家都知道这一点:解决机器学习问题的第一步是探索数据。

这不仅仅是了解哪些功能可以帮助您解决问题。这实际上需要领域知识、大量努力、大量询问并试图找出答案。这是必要的一步,但在我看来,这是第二步。

第一步是以某种方式、形状或形式,基于对数据复杂程度的分析。他们是否要求您在始终相同的事物中找到精细的细节和模式,或者输出彼此完全不同?他们希望您找到 0.0001 和 0.0002 之间的距离,还是希望您找到 0 和 10 之间的距离?

让我更好地解释一下自己。

例如,我是一名信号处理人员。我研究了傅里叶变换、Chirplet 变换、小波变换、希尔伯特变换、时间序列预测、时间序列聚类、一维 CNN、RNN 和许多其他可怕的名字。

时间序列域中一个非常常见的问题是从输入(实际上可能是另一个时间序列)到时间序列输出。例如:

您拥有实验设置的属性,并且想要使用机器学习来模拟您的实验:这实际上是我的博士论文,称为代理建模
您拥有截至第 300 天的股票市场价值,并且想要预测第 301 天:这是众所周知的,称为时间序列预测
你有一个非常脏或嘈杂的信号,你想清除它:这称为编码器-解码器信号去噪,它也是众所周知的。
令人惊讶的是,在这些问题中,我首先看到的是输出(而不是输入)时间序列。

假设我在数据集中采用了随机时间序列。时间序列是正弦和余弦的温和且平滑的组合吗?它是多项式函数吗?是对数函数吗?这是一个我连名字都无法命名的函数吗?

如果我采用另一个随机时间序列,它会如何变化?该任务是基于查看明显基线的微小变化,还是识别整个数据集中完全不同的行为?

猜你喜欢

转载自blog.csdn.net/iCloudEnd/article/details/132773424