《统计学习方法（李航）》统计学习方法概论学习笔记

作者：jliang

https://blog.csdn.net/jliang3

1.重点归纳

1）统计学三要素

（1）模型：就是所要学习的条件概率分布或决策函数

（2）策略：从假设空间中选取最优模型，需要考虑按照什么样的准则学习或选择最优的模型

（3）算法：求解最优化问题的算法

2）损失函数（loss function）或代价函数（cost function）用来度量预测错误的程度，损失函数越小越好。常见的损失函数：

0-1损失函数（0-1 loss function）

平方损失函数（quadratic loss function）

绝对损失函数（absolute loss function）

对数损失函数（logarithmic loss funcion）

3）学习的损失函数未必是评估时使用的损失函数。

4）训练误差的大小反映了模型对训练数据学习的好坏，测试误差反映了学习方法对未知的测试数据集的预测能力。

5）正则化是结构风险最小策略的实现，是在经验风险上加了一个正则化项或罚项。

L1范数：L1是绝对值最小，趋向于产生少量的特征，而其它特征为0。

L2范数：L2是平方最小，会选择更多的特征，这些特征都会接近0。

6）判别式模型与生成式模式

（1）判别式模型（直接判断是否有判别边界）

对条件概率P(Y|X)建模。
对所有样本只构建一个模型，确定总体判别边界。
观测到输入什么特征，就预测最优可能的类标。
例子：LR、决策树、最大熵、条件随机场

（2）生成式模式

对联合概率P(X, Y)建模
分类问题中，每种类标都需要进行建模，最终选择最优概率的类标，没有判别边界
例子：朴素贝叶斯、贝叶斯网络、pLSA、LDA和隐马尔科夫模型

2.统计学习方法

1）统计学习关于数据的基本假设是同类数据具有一定的统计规律性，这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据，例如文章、网页、DB数据等。

2）由于它们具有统计规律性，所以可以用概率统计方法来处理，例如：

用随机变量描述数据中的特征
用概率分布描述数据的统计规律

3）统计学习的目的是对数据进行预测与分析，特别是对未知新数据进行预测与分析。

4）统计学习方法的三要素：模型的假设空间（模型）、模型选择准则（策略）以及模型学习的算法（算法）。

5）学习方法步骤：

获取训练数据集
确定包含所有可能的模型的假设空间（即学习模型的集合）
确定模型选择的准则（即学习策略）
实现求解最优模型的算法（即学习的算法）
通过学习方法选择最优模型
利用学习的最优模型对新数据进行预测或分析

3.监督学习

1）监督学习的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测。

2）输入、输出的不同类型划分预测任务：

输入变量与输出变量均为连续变量的预测问题为回归问题
输出变量为有限个离散变量的预测问题为分类问题
输入变量与输出变量均为变量序列的预测问题为标注问题

标注问题是分类问题的推广，分类问题只输出一个值，而标注问题输出的是一个向量，向量的每个值都属于一种标记类型。

3）简单学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间。

4.统计学三要素

1）模型

在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。

决策函数表示模型的非概率模型，决策函数的集合：
由条件概率表示的模型为概率模型，条件概率的集合：

2）策略

（1）统计学习的目标在于从假设空间中选取最优模型，需要考虑按照什么样的准则学习或选择最优的模型。

（2）损失函数（loss function）或代价函数（cost function）用来度量预测错误的程度，损失函数越小越好。常见的损失函数：

0-1损失函数（0-1 loss function）

平方损失函数（quadratic loss function）

绝对损失函数（absolute loss function）

对数损失函数（logarithmic loss funcion）

（3）损失函数的期望就是欺负损失或风险函数，学习的目标就是选择期望风险最小的模型。

模型关于训练数据集的平均损失称为经验风险或经验损失
期望风险是模型关于联合分布的期望损失，经验风险是模型关于训练集的平均损失。

（4）根据大数定律，当样本容量趋于无穷大时，经验风险趋于期望风险。极大似然估计就是经验风险最小化的例子。当模型是条件概率分布，损失函数时对数损失函数时，经验风险最小化等价于极大似然估计。

（5）当样本容量很小时，经验风险最小化学习效果未必很好，会产生过拟合。结构风险最小化是为了防止过拟合而提出的策略，等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或惩罚项。

3）算法

算法是指学习模型的具体计算方法。统计学习问题归结为最优化问题，统计学习的算法成为求解最优化问题的算法。

5.模型评估与模型选择

1）基于损失函数的模型的训练误差和测试误差是学习方法的评估标准。学习的损失函数未必是评估时使用的损失函数。

2）训练误差的大小反映了模型对训练数据学习的好坏，测试误差反映了学习方法对未知的测试数据集的预测能力。通常将对未知数据的预测能力成为泛华能力。

3）如果一味追求提高对训练数据的预测能力，所选模型会过拟合，对训练数据预测得很好，但对未知数据预测得很差。模型选择旨在避免过拟合并提高模型的预测能力。

6.正则化

1）正则化是结构风险最小策略的实现，是在经验风险上加了一个正则化项或罚项。

第1项为经验风险，第2项为正则化项，λ≥0为调整两者之间关系的系数。
λ能控制对方差和偏差的影响。当λ上升时，它减少了系数的值，从而降低了方差。直到上升到某值之前，λ的增大很有利，因为它只是减少方差（避免过拟合），而不会丢失数据的任何重要特征。当λ在某值之后，模型会失去重要的特征，导致偏差上升产生欠拟合。

2）L1范数

L1是绝对值最小，趋向于产生少量的特征，而其它特征为0。

3）L2范数

L2是平方最小，会选择更多的特征，这些特征都会接近0。

4）从贝叶斯角度看，正则化对应于模型的先验概率，可以假设复杂模型有较小的先验概率，简单模型有较大的先验概率。

5）交叉验证

（1）样本数量充足时，可以随机将数据集划分成三部分，分别为：训练集、验证集合测试集。当数据不足时，为了选择好的模型，可以采用交叉验证方法。

（2）简单交叉验证

随机把数据划分成两部分，使用训练数据训练，使用测试数据测试误差，选出测试误差最小的模型。

（3）K折交叉验证

随机地把数据切分为K份数据量相同的数据，利用K-1数据进行训练，利用剩余的子集作测试，共进行K次训练和测试。选出K次评测中平均测试误差最小的模型。

（4）留一交叉验证

K折交叉验证的特殊情况，K=N，N为总样本量。

7.泛化能力

1）泛化能力是指模型对未知数据的预测能力。模型对未知数据的预测误差就是泛华误差，泛华误差就是模型的期望风险。

2）比较两种学习方法的泛化误差上界的大小来比较它们的优劣。

8.生产模型与判别模型

1）判别式模型

对条件概率P(Y|X)建模。
对所有样本只构建一个模型，确定总体判别边界。
观测到输入什么特征，就预测最优可能的类标。
优点：对数据量要求没生成式模型严格，速度也快，小数据量小准确率也会好些。
例子：LR、决策树、最大熵、条件随机场等

2）生成式模式

对联合概率P(X, Y)建模
分类问题中，每种类标都需要进行建模，最终选择最优概率的类标，没有判别边界
中间生成联合分布，并可生成采样数据
优缺点
- 所包含的信息非常齐全，所以不仅可以用于预测label，还可以干其它事情。
- 需要非常充足的数据量以保证采样到数据本来的面目。
- 当存在隐变量时仍可以使用。
- 速度比较慢。
例子：朴素贝叶斯、贝叶斯网络、pLSA、LDA和隐马尔科夫模型

9.分类问题

1）评价分类器性能的指标一般是分类准确率

2）对于不平衡二分类（如正负比例小于等于1:4）需要采用精确率（precision）和召回率（recall）

（1）名词说明

TP：将正类预测为正类数
FN：将正类预测为负类数
FP：将负类预测为正类数
TN：将负类预测为负类数

（2）精确率（查准率），误预测为正类的数量预测少，精确率越高

（3）召回率（查全率），漏预测的正类的数量预少，召回率越高

（4）F度量（F-measure），常用β=1，即F1度量。精确率和召回率都高时，F1值也会高。

10.标注问题

1）标注问题是分类问题的一个推广，标注问题又是更复杂的结构预测问题的简单形式。标注问题输入的是一个观测序列，输出是一个标记序列或状态序列。

2）学习系统基于训练数据集构建一个模型，表示为条件概率分布：。标注系统按照学习到的条件概率分布模型，对新输入观测序列找到相应的输出标记序列。

3）评价标注模型的指标与评价分类模型的一样。

4）标注常用的统计学习方法有：隐马尔科夫模型、条件随机场

5）标注问题再信息抽取、自然语言处理等领域被广泛应用。

例子：自然语言处理的次性标注：给定一个由单词组成的句子，对这个句子中的每一个单词进行标注，即对单词序列预测其对应的词性标记序列。

11.回归问题

1）回归问题等价于函数拟合，选择一条曲线使其很好地拟合已知数据并很好预测未知数据。

2）回归学习最常用的损失函数时平方损失函数，在此情况下，回归问题可以由最小二乘法求解。

《统计学习方法（李航）》统计学习方法概论 学习笔记

作者：jliang

猜你喜欢

《统计学习方法（李航）》统计学习方法概论学习笔记