机器学习方法基础与概论(一)(机器学习方法分类)

机器学习方法可以概括如下,从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布生成的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现。

我们从中可以总结出机器学习方法的三要素:模型策略算法

机器学习的分类

依据不同的学习方式和输入数据,机器学习主要分为监督学习无监督学习半监督学习弱监督学习强化学习等等。

监督学习

监督学习是指从标注数据中学习预测模型的机器学习问题。它已知数据和其一一对应的标签,然后训练一个预测模型,本质是学习输入到输出的映射的统计规律

在监督学习中,每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。输入实例 x x x 的特征向量记作
x = ( x ( 1 ) , x ( 2 ) , . . . , x ( i ) , . . . , x ( n ) ) T x=\left(x^{(1)},x^{(2)},...,x^{(i)},...,x^{(n)}\right)^T x=(x(1),x(2),...,x(i),...,x(n))T
其中, x ( i ) x^{(i)} x(i) 表示第 i i i 个特征。

训练数据由输入与输出对组成,训练集通常表示为
T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } T=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\} T={(x1,y1),(x2,y2),,(xN,yN)}

输入变量 X X X 和输出变量 Y Y Y 有不同的类型,可以是连续的,也可以是离散的。输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的问题称为分类问题

监督学习分为学习和预测两个过程,由学习系统预测系统完成。在学习过程中,学习系统利用给定的训练数据集,通过学习得到一个模型,表示为条件概率分布 P ^ ( Y ∣ X ) \hat{P}(Y|X) P^(YX),该分布表示输入与输出随机变量之间的映射关系。预测系统对于给定的测试样本集中的输入 x N + 1 x_{N+1} xN+1,由模型 y N + 1 = arg max ⁡ y P ^ ( y ∣ x N + 1 ) y_{N+1}=\argmax_y\hat{P}(y|x_{N+1}) yN+1=argmaxyP^(yxN+1) 给出相应的输出。

监督学习模型的搭建步骤:

  1. 数据集的创建和分类
  2. 数据增强,一般搜集的数据并不一定包含目标在各种扰动下的信息。数据的好坏对于机器学习模型的预测能力至关重要,因此一般会进行数据增强;
  3. 特征工程,特征工程包含特征提取和特征选择。常见的手工特征有尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)、方向梯度直方图(Histogram of Oriented Gradient, HOG)等。由于手工特征是启发式的,其算法设计背后的出发点不同,将这些特征组合在一起的时候有可能会产生冲突,因此将组合特征的效能发挥出来,使原始数据在特征空间中的判别性最大化,就需要用到特征选择的方法;
  4. 构建预测模型和损失函数
  5. 训练
  6. 验证和模型选择
  7. 测试及应用

无监督学习

无监督学习是指从无标注数据中学习预测模型的机器学习问题。无监督学习的本质是学习数据中的统计规律或潜在结构

在无监督学习中,每个输入是一个实例,依旧由特征向量表示。每个输出则是对输入的分析结果,由输入的类别、转换或概率表示。模型可以实现对数据的聚类降维概率估计

假设 X \mathcal{X} X 是输入空间, Z \mathcal{Z} Z 是隐式结构空间。要学习的模型可以表示为函数 z = g ( x ) z=g(x) z=g(x)、条件概率分布 P ( z ∣ x ) P(z|x) P(zx) 的形式。分析时使用学习得到的模型,即函数 z = g ^ ( x ) z=\hat{g}(x) z=g^(x),条件概率分布 P ^ ( z ∣ x ) \hat{P}(z|x) P^(zx)。预测时,和监督学习有类似的流程。预测系统对于给定的输入 x N + 1 x_{N+1} xN+1,由模型 z N + 1 = g ^ ( x N + 1 ) z_{N+1}=\hat{g}(x_{N+1}) zN+1=g^(xN+1) z N + 1 = arg max ⁡ z P ^ ( z ∣ x N + 1 ) z_{N+1}=\argmax_z\hat{P}(z|x_{N+1}) zN+1=argmaxzP^(zxN+1) 给出相应的输出。


半监督学习

半监督学习是指利用标注数据 未标注数据学习预测模型的机器学习问题。通常有少量标注数据、大量未标注数据,因为标注数据的构建往往需要人工,成本较高。半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习(通过对标注数据建模,在此基础上对未标注数据进行预测),以较低的成本达到较好的学习效果。


强化学习

强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程,智能系统观测到的是与环境互动得到的数据序列。,强化学习的本质是学习最优的序贯决策。智能系统与环境的互动如下图所示:
在这里插入图片描述
在每一步 t t t,智能系统从环境中观测到一个状态 s t s_t st 与一个奖励 r t r_t rt,采取一个动作 a t a_t at。环境根据智能系统选择的动作,决定下一步 t + 1 t+1 t+1 的状态 s t + 1 s_{t+1} st+1 与奖励 r t + 1 r_{t+1} rt+1。要学习的策略表示为给定的状态下采取的动作。智能系统的目标不是短期奖励的最大化,而是长期累积奖励的最大化。强化学习过程中,系统不断地试错(trial and error),以达到学习最优策略的目的。

强化学习的马尔可夫决策过程是状态、奖励、动作序列上的随机过程,由四元组 < S , A , P , r > <S,A,P, r> <S,A,P,r> 组成:

  • S S S 是有限状态的集合
  • A A A 是有限动作的集合
  • P P P 是状态转移概率函数:
    P ( s ′ ∣ s , a ) = P ( s t + 1 = s ′ ∣ s t = s , a t = a ) P(s'|s,a)=P(s_{t+1}=s'|s_t=s,a_t=a) P(ss,a)=P(st+1=sst=s,at=a)
  • r r r 是奖励函数: r ( s , a ) = E ( r t + 1 ∣ s t = s , a t = a ) r(s, a)=E(r_{t+1}|s_t=s,a_t=a) r(s,a)=E(rt+1st=s,at=a)

马尔可夫决策过程具有马尔可夫性,下一个状态只依赖于前一个状态与动作,由状态转移概率函数表示。下一个奖励依赖于前一个状态与动作,由奖励函数表示。

策略 π \pi π 定义为给定状态下动作的函数 a = f ( s ) a=f(s) a=f(s) 或条件概率分布 P ( a ∣ s ) P(a|s) P(as)。给定一个策略,智能系统与环境互动的行为就已确定。

价值函数状态价值函数定义为策略 π \pi π 从某一个状态 s s s 开始的长期累计奖励的数学期望:
v π ( s ) = E π [ r t + 1 + γ r t + 2 + γ 2 r t + 3 + ⋯ ∣ s t = s ] v_\pi(s)=E_\pi[r_{t+1}+\gamma r_{t+2}+\gamma ^2r_{t+3}+\cdots|s_t=s] vπ(s)=Eπ[rt+1+γrt+2+γ2rt+3+st=s]

强化学习的目标就是在所有可能的策略中选出价值函数最大的策略 π ∗ \pi^* π,而在实际学习中往往从具体的策略出发,不断优化已有策略。式中的 γ \gamma γ折扣率,表示未来的奖励会有衰减。


按模型分类

概率模型与非概率模型

在监督学习中,概率模型取条件概率分布形式 P ( y ∣ x ) P(y|x) P(yx),非概率模型取函数形式 y = f ( x ) y=f(x) y=f(x)。决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析等是概率模型;感知机、支持向量机、 k k k 近邻、AdaBoost、神经网络等等是非概率模型。

条件概率分布 P ( y ∣ x ) P(y|x) P(yx) 和函数 y = f ( x ) y=f(x) y=f(x) 可以相互转化,具体地,条件概率分布最大化后得到函数,函数归一化后得到条件概率分布。无论概率模型如何复杂,都可以用最基本的加法规则和乘法规则进行推理:
P ( x ) = ∑ y P ( x , y ) P(x)=\sum_y P(x, y) P(x)=yP(x,y)

P ( x , y ) = P ( x ) P ( y ∣ x ) P(x,y)=P(x)P(y|x) P(x,y)=P(x)P(yx)

线性模型与非线性模型

机器学习模型,特别是非概率模型,可以分为线性模型和非线性模型。如果函数 y = f ( x ) y=f(x) y=f(x) 是线性函数,则称模型是线性模型,否则称模型是非线性模型。

感知机、线性支持向量机、 k k k 近邻等是线性模型;核函数支持向量机、AdaBoost、神经网络等是非线性模型。

深度学习实际是复杂神经网络的学习,也就是复杂的非线性模型的学习。

参数化模型和非参数化模型

参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画;非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。

参数化模型适合问题简单的情况,现实中问题往往比较复杂,非参数化模型更加有效。


按技巧分类

贝叶斯学习

贝叶斯学习的主要想法是:在概率模型学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并应用这个原理进行模型的估计,以及对数据的预测。

假设随机变量 D D D 表示数据,随机变量 θ \theta θ 表示模型参数,根据贝叶斯定理,可用以下公式计算后验概率:
P ( θ ∣ D ) = P ( θ ) P ( D ∣ θ ) P ( D ) P(\theta|D)=\frac{P(\theta)P(D|\theta)}{P(D)} P(θD)=P(D)P(θ)P(Dθ)

如果需要给出一个模型,通常取后验概率最大的模型。预测时,计算数据对后验概率的期望值:
P ( x ∣ D ) = ∫ P ( x ∣ θ , D ) P ( θ ∣ D ) d θ P(x|D)=\int P(x|\theta,D)P(\theta|D)d\theta P(xD)=P(xθ,D)P(θD)dθ

贝叶斯估计与极大似然估计 θ ^ = arg max ⁡ θ P ( D ∣ θ ) \hat{\theta}=\argmax_\theta P(D|\theta) θ^=argmaxθP(Dθ))在思想上有很大的不同,代表着统计学中贝叶斯学派和频率学派对统计的不同认识。其实,可以把两者简单的联系起来。假设先验分布是均匀分布,取后验概率最大,就能从贝叶斯估计得到极大似然估计

核方法

核方法是使用核函数表示和学习非线性模型的一种机器学习方法。有一些线性模型的学习方法基于相似度计算,更具体地,向量内积计算。核方法可以把它们扩展到非线性模型的学习,使其应用更加广泛。

把线性模型扩展到非线性模型,直接的做法是显式地定义从输入空间(低维空间)到特征空间(高维空间)的映射,在特征空间进行内积计算。比如 SVM,把输入空间的线性不可分问题转化为特征空间的线性可分问题。核方法的技巧在于不显式地定义这个映射,而是直接定义核函数。

假设 x 1 , x 2 x_1,x_2 x1,x2 是输入空间的任意两个实例,其内积是 ⟨ x 1 , x 2 ⟩ \left \langle x_1,x_2\right \rangle x1,x2。假设输入空间到特征空间的映射是 φ \varphi φ,于是 x 1 , x 2 x_1,x_2 x1,x2 在特征空间的映射为 φ ( x 1 ) \varphi(x_1) φ(x1) φ ( x 2 ) \varphi(x_2) φ(x2),其内积是 ⟨ φ ( x 1 ) , φ ( x 2 ) ⟩ \left \langle\varphi(x_1),\varphi(x_2)\right \rangle φ(x1),φ(x2)。核方法直接在输入空间中定义核函数 κ ( x 1 , x 2 ) \kappa(x_1,x_2) κ(x1,x2),使其满足 κ ( x 1 , x 2 ) = ⟨ φ ( x 1 ) , φ ( x 2 ) ⟩ \kappa(x_1,x_2)=\left \langle\varphi(x_1),\varphi(x_2)\right \rangle κ(x1,x2)=φ(x1),φ(x2)


References

[1] 《机器学习方法》,李航,清华大学出版社。
[2] 《深度学习500问》,谈继勇,电子工业出版社。

猜你喜欢

转载自blog.csdn.net/myDarling_/article/details/129472237
今日推荐