机器学习笔记 - 什么是马尔可夫链?

一、马尔可夫链概述

        以Andrey Markov命名的马尔可夫链是从一个“状态”(一种情况或一组值)跳到另一个“状态”的数学系统。

        马尔可夫链是一种简单且非常有用的工具,用于对时间相关、空间相关的随机过程进行建模。金融(股票价格变动)、销售(销售数量信息)、NLP 算法(有限状态传感器、用于POS 标记的隐马尔可夫模型)、天气预报等许多领域都使用马尔可夫链轻松准确地进行预测。

        马尔可夫链代表了一类随机过程,其中未来不依赖于过去,而是依赖于现在。如果随机过程由处理未来的马尔可夫性质组成,则可以将随机过程视为马尔可夫链。我们要求当前状态和过去的信息独立于过程。

二、相关术语

        考虑一种情况,我们在 n 个时间戳记录了 Xn 个状态。时间 n+1 的未来状态取决于时间 n 的状态。让我们以电晕病例为例,其中在时间 n 的病例数为 Xn,在时间 n+1 的病例数为 Xn+1。因此,如果我们遵循马尔可夫链定义,时间 n+1 的案例数将取决于时间 n 的案例数(Xn+1 将取决于 Xn),而不是过去的 {Xn−1, Xn -2, . . . , X0}。要了解马尔可夫链,我们可能需要了解马尔可夫链概念中基本使用的一些术语。这些术语解释如下。

1、状态空间

        如果马尔可夫链的状态空间可以由 S 提供,其中 S = {1,2,3….., n},则过程的状态可以由 Xn 的值给出。例如,如果 Xn = 8,则过程的状态为 8。因此,我们可以说在任何时间 n,过程的状态由 Xn 的值给出。

        例如,在一个班级中,旧的不及格记录的学生更有可能将最终结果发展为不及格,而在之前的考试中成绩较低的学生更有可能得到不及格的结果。所以在这种情况下,我们可以说,老不及格的学生考试不及格的几率更高,而分数低的学生考试不及格的几率更低。在这种情况下,我们有两种状态:较低的机会和较高的机会。S={1,2}。

2、轨迹

        马尔可夫链的轨迹可以认为是随机过程从一开始就存在的状态序列。 

        换句话说,如果我们可以将轨迹值表示为 s0,s1,s2…….sn,那么状态将采用 X0=s0,X1 = s1…….Xn=sn 的值。

3、转移概率

        马尔可夫链在特定时间不能是无关紧要的状态,但它们可以随时间改变状态。状态的变化可以称为状态的转变。从上面给出的示例中,例如,马尔可夫链的机会可能较低或较高。

状态转换的表示

         在状态 1 中,链条处于较高机会状态,我们可以说正在进行的考试处于失败机会较高的状态。下一次考试进入失败概率较高的状态的概率是 0.7,而状态转换到失败概率较低的概率是 0.3。学生从本次考试过渡到另一次考试的机会较低的状态的概率是 0.3。

        假设系统处于较低机会状态并绘制了类似的转换图。这里的转移概率是 0.85 和 0.15。使用这两个图表我们可以绘制一个完整的过程。

        上图是从状态 1 到状态 2 的组合状态转换图的表示。对于一个时间实例,这些过程不能向后走,但它们可以在下一个时间实例上向后走。 

4、状态转移矩阵

        所有转移概率的矩阵称为转移矩阵。其中行是起点,列是终点。

         上面的矩阵是文章中上述示例的转移矩阵的表示。过程从较低机会状态转变为低风险状态的概率为 0.15。从低风险到高机会的转变概率为 0.85。

三、使用马尔可夫链进行预测

        马尔可夫链是预测未来价值的非常强大的工具。由于它提供了各种有用的见解,因此非常有必要了解转换概率、转换矩阵、状态空间和轨迹以理解这些见解。

         需要先验知识的基本事物之一是过程的初始状态。为了解释预测过程,让我们看一下上面的学生失败机会示例,其中应用了一些更改 

1、初始状态和一步预测

        这次是工程考试,观察结果是,如果学生在第一年的数学考试中不及格,他们的核心科目更有可能失败 3 次,如果他们在第一年通过数学,他们更有可能通过核心科目科目考试四次。所以例如转移矩阵将是 

         因此,如果学生通过数学考试,过程的初始状态将是

         从上面的初始状态,我们可以通过将初始状态和转移矩阵相乘,以学生通过核心科目的概率的形式做出未来的预测。

         对于给定的示例,下一步的预测将是。

         我们可以说初始状态之后的第一个状态的预测可以由以下公式给出。

        初始状态 X 转移矩阵 = 预测

2、长期概率

        长期概率可以被认为是稳态概率。因为我们可以计算当过程中的状态稳定时的稳态概率。在马尔可夫链中,如果初始阶段是稳定的,这意味着一旦它变得恒定,我们就可以计算稳态概率。

        假设 V0 是初始状态概率向量,T 是转移矩阵,因此一次性步长预测可以表示为               ​​​​​​​        V1 = V0 \cdot T

        这里有一个值得注意且非常简单的数学是向量和矩阵在向量中的点积,通过这种直觉,我们可以说在预测一次性步骤的过程中,我们再次遇到了一个向量,该向量可以再次 被认为是初始状态。 或者更正式地说,未来每一个预测的一次性步骤将只对其下一步负责。

        因此,如果我们要预测第二步,预测公式将是V2 = V1 \cdot T而这里从一步的预测,我们就知道了V1的值。 通过将 V1 的值V2 = (V0 \cdot T) \cdot TV2 = V0 \cdot T^2

        同样,对于第三步,预测将是V3 = V2\cdot T = (V0 \cdot T^2)\cdot TV3 = V0 \cdot T^3

        因此,关于第 n 个时间步的预测,预测可以通过以下公式计算Vn = V_{n-1} \cdot T = V0 \cdot T^n

        这就是上面给出的迭代过程如何帮助预测长过程的未来状态概率。 这里的长期概率可以写成

        V_\propto = V0 \cdot T^\propto .从上面的长期概率公式可以说,没有任何乘以转移矩阵的量会导致长期概率向量的变化。

四、马尔可夫链的优势和应用

1、优势

        正如我们在上面看到的,马尔可夫链很容易从连续数据中推导出来

        我们不需要深入研究动态变化的机制。

        马尔可夫链可以告诉我们缺少的任何流程的区域,并且我们可以进一步根据改进进行更改。   

        任何规模的系统都可以轻松计算出非常低或适中的计算要求。

2、应用

        马尔可夫链可用于预测,可以是任何类型的预测,如天气、温度、销售等。

        可用于预测客户行为。

        众所周知,它适用于顺序数据,因此可以与许多NLP问题解决方案(如 POS 标记)合并。

        可以分析品牌忠诚度和消费者行为。

        在游戏领域,机会游戏可以开发出各种模型。 

猜你喜欢

转载自blog.csdn.net/bashendixie5/article/details/124411075