《统计学习方法(李航)》统计学习方法概论 学习笔记

 

1.重点归纳

1)统计学三要素

(1)模型:就是所要学习的条件概率分布或决策函数

(2)策略:从假设空间中选取最优模型,需要考虑按照什么样的准则学习或选择最优的模型

(3)算法:求解最优化问题的算法

2)损失函数(loss function)或代价函数(cost function)用来度量预测错误的程度,损失函数越小越好。常见的损失函数:

  •  0-1损失函数(0-1 loss function)

  • 平方损失函数(quadratic loss function)

  • 绝对损失函数(absolute loss function)

  • 对数损失函数(logarithmic loss funcion)

3)学习的损失函数未必是评估时使用的损失函数。

4)训练误差的大小反映了模型对训练数据学习的好坏,测试误差反映了学习方法对未知的测试数据集的预测能力。

5)正则化是结构风险最小策略的实现,是在经验风险上加了一个正则化项或罚项。

  • L1范数:L1是绝对值最小,趋向于产生少量的特征,而其它特征为0。

  • L2范数:L2是平方最小,会选择更多的特征,这些特征都会接近0。

6)判别式模型与生成式模式

(1)判别式模型(直接判断是否有判别边界)

  • 对条件概率P(Y|X)建模。
  • 对所有样本只构建一个模型,确定总体判别边界。
  • 观测到输入什么特征,就预测最优可能的类标。
  • 例子:LR、决策树、最大熵、条件随机场

(2)生成式模式

  • 对联合概率P(X, Y)建模
  • 分类问题中,每种类标都需要进行建模,最终选择最优概率的类标,没有判别边界
  • 例子:朴素贝叶斯、贝叶斯网络、pLSA、LDA和隐马尔科夫模型

2.统计学习方法

1)统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据,例如文章、网页、DB数据等。

2)由于它们具有统计规律性,所以可以用概率统计方法来处理,例如:

  • 用随机变量描述数据中的特征
  • 用概率分布描述数据的统计规律

3)统计学习的目的是对数据进行预测与分析,特别是对未知新数据进行预测与分析。

4)统计学习方法的三要素:模型的假设空间(模型)、模型选择准则(策略)以及模型学习的算法(算法)。

5)学习方法步骤:

  • 获取训练数据集
  • 确定包含所有可能的模型的假设空间(即学习模型的集合)
  • 确定模型选择的准则(即学习策略)
  • 实现求解最优模型的算法(即学习的算法)
  • 通过学习方法选择最优模型
  • 利用学习的最优模型对新数据进行预测或分析

3.监督学习

1)监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

2)输入、输出的不同类型划分预测任务:

  • 输入变量与输出变量均为连续变量的预测问题为回归问题
  • 输出变量为有限个离散变量的预测问题为分类问题
  • 输入变量与输出变量均为变量序列的预测问题为标注问题

标注问题是分类问题的推广,分类问题只输出一个值,而标注问题输出的是一个向量,向量的每个值都属于一种标记类型。

3)简单学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。

4.统计学三要素

1)模型

       在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。

  • 决策函数表示模型的非概率模型,决策函数的集合:
  • 由条件概率表示的模型为概率模型,条件概率的集合:

2)策略

(1)统计学习的目标在于从假设空间中选取最优模型,需要考虑按照什么样的准则学习或选择最优的模型。

(2)损失函数(loss function)或代价函数(cost function)用来度量预测错误的程度,损失函数越小越好。常见的损失函数:

  • 0-1损失函数(0-1 loss function)

  • 平方损失函数(quadratic loss function)

  • 绝对损失函数(absolute loss function)

  • 对数损失函数(logarithmic loss funcion)

(3)损失函数的期望就是欺负损失或风险函数,学习的目标就是选择期望风险最小的模型。

  • 模型关于训练数据集的平均损失称为经验风险或经验损失
  • 期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练集的平均损失。

(4)根据大数定律,当样本容量趋于无穷大时,经验风险趋于期望风险。极大似然估计就是经验风险最小化的例子。当模型是条件概率分布,损失函数时对数损失函数时,经验风险最小化等价于极大似然估计。

(5)当样本容量很小时,经验风险最小化学习效果未必很好,会产生过拟合。结构风险最小化是为了防止过拟合而提出的策略,等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或惩罚项。

3)算法

算法是指学习模型的具体计算方法。统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。

5.模型评估与模型选择

1)基于损失函数的模型的训练误差和测试误差是学习方法的评估标准。学习的损失函数未必是评估时使用的损失函数。

2)训练误差的大小反映了模型对训练数据学习的好坏,测试误差反映了学习方法对未知的测试数据集的预测能力。通常将对未知数据的预测能力成为泛华能力。

3)如果一味追求提高对训练数据的预测能力,所选模型会过拟合,对训练数据预测得很好,但对未知数据预测得很差。模型选择旨在避免过拟合并提高模型的预测能力。

6.正则化

1)正则化是结构风险最小策略的实现,是在经验风险上加了一个正则化项或罚项。

  1. 第1项为经验风险,第2项为正则化项,λ≥0为调整两者之间关系的系数。
  2. λ能控制对方差和偏差的影响。当λ上升时,它减少了系数的值,从而降低了方差。直到上升到某值之前,λ的增大很有利,因为它只是减少方差(避免过拟合),而不会丢失数据的任何重要特征。当λ在某值之后,模型会失去重要的特征,导致偏差上升产生欠拟合。

2)L1范数

     L1是绝对值最小,趋向于产生少量的特征,而其它特征为0。

3)L2范数

     L2是平方最小,会选择更多的特征,这些特征都会接近0。

4)从贝叶斯角度看,正则化对应于模型的先验概率,可以假设复杂模型有较小的先验概率,简单模型有较大的先验概率。

      5)交叉验证

(1)样本数量充足时,可以随机将数据集划分成三部分,分别为:训练集、验证集合测试集。当数据不足时,为了选择好的模型,可以采用交叉验证方法。

(2)简单交叉验证

随机把数据划分成两部分,使用训练数据训练,使用测试数据测试误差,选出测试误差最小的模型。

(3)K折交叉验证

随机地把数据切分为K份数据量相同的数据,利用K-1数据进行训练,利用剩余的子集作测试,共进行K次训练和测试。选出K次评测中平均测试误差最小的模型。

(4)留一交叉验证

K折交叉验证的特殊情况,K=N,N为总样本量。

7.泛化能力

1)泛化能力是指模型对未知数据的预测能力。模型对未知数据的预测误差就是泛华误差,泛华误差就是模型的期望风险。

2)比较两种学习方法的泛化误差上界的大小来比较它们的优劣。

8.生产模型与判别模型

1)判别式模型

  • 对条件概率P(Y|X)建模。
  • 对所有样本只构建一个模型,确定总体判别边界。
  • 观测到输入什么特征,就预测最优可能的类标。
  • 优点:对数据量要求没生成式模型严格,速度也快,小数据量小准确率也会好些。
  • 例子:LR、决策树、最大熵、条件随机场等

2)生成式模式

  • 对联合概率P(X, Y)建模
  • 分类问题中,每种类标都需要进行建模,最终选择最优概率的类标,没有判别边界
  • 中间生成联合分布,并可生成采样数据
  • 优缺点
    • 所包含的信息非常齐全,所以不仅可以用于预测label,还可以干其它事情。
    • 需要非常充足的数据量以保证采样到数据本来的面目。
    • 当存在隐变量时仍可以使用。
    • 速度比较慢。
  • 例子:朴素贝叶斯、贝叶斯网络、pLSA、LDA和隐马尔科夫模型

9.分类问题

1)评价分类器性能的指标一般是分类准确率

2)对于不平衡二分类(如正负比例小于等于1:4)需要采用精确率(precision)和召回率(recall)

(1)名词说明

  • TP:将正类预测为正类数
  • FN:将正类预测为负类数
  • FP:将负类预测为正类数
  • TN:将负类预测为负类数

(2)精确率(查准率),误预测为正类的数量预测少,精确率越高

(3)召回率(查全率),漏预测的正类的数量预少,召回率越高

(4)F度量(F-measure),常用β=1,即F1度量。精确率和召回率都高时,F1值也会高。

10.标注问题

1)标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测问题的简单形式。标注问题输入的是一个观测序列,输出是一个标记序列或状态序列。

2)学习系统基于训练数据集构建一个模型,表示为条件概率分布:。标注系统按照学习到的条件概率分布模型,对新输入观测序列找到相应的输出标记序列。

3)评价标注模型的指标与评价分类模型的一样。

      4)标注常用的统计学习方法有:隐马尔科夫模型、条件随机场

      5)标注问题再信息抽取、自然语言处理等领域被广泛应用。

例子:自然语言处理的次性标注:给定一个由单词组成的句子,对这个句子中的每一个单词进行标注,即对单词序列预测其对应的词性标记序列。

11.回归问题

1)回归问题等价于函数拟合,选择一条曲线使其很好地拟合已知数据并很好预测未知数据。

2)回归学习最常用的损失函数时平方损失函数,在此情况下,回归问题可以由最小二乘法求解。

 

猜你喜欢

转载自blog.csdn.net/jliang3/article/details/85226117