【数据挖掘学习笔记】6.随机过程与抽样

一、马尔可夫模型

马尔可夫性(无后效性)

– 过程(或系统)“将来”的情况与“过去”的情况无关,则成过程(或系统)具有马尔可夫性
– 具有马尔可夫性的随机过程称为马尔可夫过程
– 时间和状态都是离散的马尔可夫过程称为马尔可夫链

转移概率

称条件概率为马氏链在时刻m处于状态ai条件下,在时刻m+n转移到状态aj的转移概率。

说明: 转移概率具有特点


由转移概率组成的矩阵称为马氏链的转移概率矩阵.

此矩阵的每一行元素之和等于1.它是随机矩阵.

平稳性

当转移概率 Pij(m, m+n) 只与 i, j 及时间间距n有关时, 称转移概率具有平稳性. 同时也称此链是齐次的时齐的


反射壁:走到某端点必弹向另一边

吸收壁:走到某端点被吸收

转移概率决定了马氏链的运动的统计规律. 
确定马氏链的任意n步转移概率成为马氏链理论中的重要问题之一

C-K方程



结论

马氏链的n步转移概率是一步转移概率的 n 次方,链的有限维分布可由初始分布和一步转移概率完全确定.


二、隐马尔可夫模型

HMM的假设
– 对于一个随机事件,有一个观察值序列:O1,...,OT
– 该事件隐含着一个状态序列:X1,...,XT
– 假设1:马尔可夫假设(状态构成一阶马尔可夫链)
 p(Xi|Xi-1…X1) = p(Xi|Xi-1)
– 假设2:不动性假设(状态与具体时间无关) 
p(Xi+1|Xi) = p(Xj+1|Xj),对任意i,j成立
– 假设3:输出独立性假设(输出仅与当前状态有关)
 p(O1,...,OT | X1,...,XT) = Π p(Ot | Xt)


个隐马尔可夫模型 (HMM) 是一个五元组:

 (ΩS , ΩO, A, B, π )
其中:
 ΩS = {q1,...qN}:状态的有限集合
 ΩO = {v1,...,vM}:观察值的有限集合
 A = {aij},aij = p(Xt+1 = qj |Xt = qi):转移概率
 B = {bik},bik = p(Ot = vk | Xt = qi):输出概率
 π = {πi}, πi = p(X1 = qi):初始状态分布

HMM定义

– 隐马尔可夫模型HMM是由两个随机过程组成,其中一个是不可观测的有限状态马氏链,而且它的转移概率可能也是不知道的,这个马氏链称为状态链,另一个随机过程是可观测到的,称为观测链,某时刻观测链的观测结果受该时刻状态链的状态影响。

HMM的三个基本问题
1、评估问题:给定观察序列O和HMM λ=(π, A, B),判断O是由λ产生的可能性有多大?
– 求解:前向和后向算法
2、解码问题:给定观察序列O和HMM λ=(π, A, B),判断序列O对应的最优状态序列是什么?
– 求解:维特比(viterbi)算法
3、学习问题:给定观察序列O,确定产生O的最可能HMM λ=(π, A, B)
– 求解:鲍姆威尔士(Baum-Welch)算法

前向算法
– 从前到后递推,定义一个前向变量α

– 初始时刻,状态处于si生成观察变量v1的概率


– 递推,t时刻,状态处于st生成观察变量vt的概率,一方面跟之前t-1时刻的状态有关,t-1时刻的各种状态可能到st有

概率(状态转移矩阵A),另外也跟状态st生成vt的概率(输出概率矩阵/观测值产生概率矩阵B)


– 结束:求出最后n时刻,各状态的αn ,则问题1的总概率是各状态的αn的和



递推原理


后向算法


解码问题:

给定观察序列O和HMM λ=(π, A, B),判断序列O对应的最优状态序列是什么

– 状态序列是隐序列
– 多种可能状态序列均可产生观察序列
– 最优(最大可能的)状态序列是什么
– 如果观测序列只有1个点,那么结果是输出矩阵中概率最大的状态
– 如果观测序列的点数多于1个,如果t-1时刻是走到状态si最优,那么t时刻的最优序列,不一定是从状态si转换而来,因为受到转移矩阵和输出矩阵的双重影响,导致解码问题复杂





学习问题

给定观察序列O,确定产生O的最可能

HMM λ=(π, A, B)
– 给定观察值序列O,通过计算确定一个模型λ , 使得P(O| λ)最大
– 已知O和λ,可以计算前向、后向、维特比变量
– 已知O,通过前向、后向、维特比变量,可以反推λ
– 通过设定初始λ0,采用不断迭代优化的方式,通过计算各种变量,调整λ值,直到满意为止






三、抽样

  • 随机抽样 
  • 非随机抽样

全及总体
– 简称总体或母体,是指所要调查认识的研究对象的全体,它由具有某种共同性质或特征的单位组成。用字母N表示。
样本总体
– 简称样本,指在全及总体中抽取部分单位所构成的小总体。用字母n表示。

抽样 sampling

– 指从目标总体(Population,或称为母体)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识
– 样本特征体现总体特征
– 样本特征与总体特征的偏差在可接受范围内

精度与误差
– 精度:观测结果、计算值或估计值与真实值之间的接近程度
– 通过数据表示对象时,需要考虑单位或计量标准。单位和标准的制订源于人们对对象的认识
– 误差:一个量在测量、计算或观察过程中由于某些错误或通常由于某些不可控制的因素的影响而造成的变化偏离标准值或规定值的数量
– 误差是不可避免的

抽样调查
– 又称为抽样推断或抽样估计,指从总体中抽取一部分单位作为样本进行调查,然后根据样本调查结果对总体情况作出推断和估计的一种统计方法,是一种非全面调查

抽样调查特点
– 由部分推断总体
– 抽样推断的结果具有一定的可靠程度,抽样误差可以事先计算并控制
– 抽样调查优点
• 经济性
• 时效性
• 准确性

• 灵活性

抽样误差
– 选取的样本不能完全代表总体而导致的误差
– 登记误差:由于人的主观失误在观察、登记、计算时造成的误差,可以避免。
– 系统性误差:由于有意识选取调查单位造成的系统偏差,理论上可以避免。
– 随机误差:由于按照随机原则抽取样本而产生的误差,无法避免但可以控制。

抽样误差主要指随机误差

抽样误差影响因素 

– 总体各单位的差异程度 

• 标准差越大,抽样误差越大

 – 样本单位数的多少 

• 样本数越大,抽样误差越小 

– 抽样方法 

• 不重复抽样比重复抽样小 

– 抽样组织方式

 • 简单随机抽样最大

重采样
解决数据不平衡的一种手段
– 欠采样
• 减少原始数据集中的多数类样本
– 过采样
• 增加原始数据集中的少数类样本

SMOTE算法



随机抽样 

  • 简单随机抽样 
  • 分层抽样 
  • 系统抽样 
  • 整群抽样

简单随机抽样仅适用于规模不大、内部各单位标志值差异较小的总体.

分层抽样能使样本结构更接近于总体结构,提高样本的代表性;能同时推断总体指标和各子总体的指标

分层最佳抽样:指不仅按各层单位数占总体单位数的比例分配各层的样本数,还根据各层标准差的大小来调整各层样本数目的抽样方法

每层抽取的样本数计算公式为:
• ni为第i层抽出的样本数
• Ni为第i层的总单位数
• σi为第i层的标准差
• n为总体样本数

系统抽样:将总体单位按某一标志排序,而后按一定间隔抽取样本单位的抽样组织方式

• 优点
– 简便易行,容易确定样本单元
– 分布比较均匀,有利于提高估计精度
• 缺点
– 若存在周期性变化,代表性差

整群(集团)抽样
– 将总体全部单位分为若干“群”,然后随机抽取一部分“群”,被抽中群体的所有单位进行全面调查的抽样组织方式

整群抽样特点
– 总体和样本都是由“群”组成;
– 引起的抽样误差的方差是群间方差,群内方差不影响抽样误差;
– 整群抽样均为不重复抽样,可提高样本的代表性。

非随机抽样

任意抽样
– 调查人员本着随意性原则去选择样本的抽样方式
– 简单、经济
– 默认个体是相同的
– 误差较大

判断抽样
– 根据调查人员的主观经验从总体样本中选择那些被判断为最能代表总体的单位作样本的抽样方法
– 抽样依照调查者个人偏好来选择样本
– 人的因素至关重要
– 好的很好,差的很差,两极分化

配额抽样
– 指调查人员将调查总体样本按一定标志分类或分层,确定各类(层)单位的样本数额,在配额内任意抽选样本的抽样方式
– 按照一定的标准和比例分配样本的数额,然后根据配额抽取样本
– 做法与分层抽样完全相同,区别只在于抽的时候是随机抽还是非随机的抽

滚雪球抽样
– 先选择一组调查对象,通常是随机地选取的。访问这些被调查者之后,再请他们提供另外一些属于所研究的目标总体的调查对象,根据所提供的线索,选择此后的调查对象。这一过程会继续下去,形成滚雪球的效果

优点– 特征导向 – 易于发现前所未知的信息  

缺点– 样本空间控制 – 滚动方向单一 – 初选样本影响巨大




猜你喜欢

转载自blog.csdn.net/sigmeta/article/details/80779376