李航-统计学习方法-笔记-1：统计学习方法概论

统计学习：

统计学习由监督学习、非监督学习、半监督学习和强化学习等组成，本书主要讨论监督学习。

监督学习：

监督学习的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出一个好的预测。

方法=模型+策略+算法

统计学习三要素之一：模型

在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。

统计学习三要素之二：策略

“策略即从假设空间中选取参数最优模型，模型的分类或预测结果与实际情况的误差越小，模型就越好”

损失函数度量模型一次预测的好坏，风险函数（期望损失）即损失函数的期望用来度量平均意义下模型预测的好坏，但风险函数无法计算，模型关于训练数据集的平均损失称为经验风险（经验损失），当样本数量无限大时，经验损失就趋近于期望损失，但样本数目有限。

经验风险最小化策略：认为经验风险最小的模型是最优模型。样本容量足够大时学习效果好，但样本容量很小时，容易产生过拟合。例极大似然估计。

结构风险最小化（正则化）策略：为了防止过拟合提出的，在经验风险的基础上加上表示模型复杂度的罚项。用大于等于0的系数平衡经验风险和模型复杂度的关系。例贝叶斯估计，正则化是结构风险最小化策略的实现，作用是选择经验风险和模型复杂度同时较小的模型，正则化符合奥卡姆剃刀原理（简单有效“如无必要，勿增实体”）。

这样监督学习问题就转变成为经验风险或结构风险的最优化问题。

统计学习三要素之三：算法

“算法是指学习模型的具体计算方法，也就是如何求解全局最优解，并使求解过程高效，本质就是计算机算法，怎么去求数学问题的最优化解”

正规方程或梯度下降

实现统计学习方法的步骤如下：

（1）得到一个有限的训练数据集合；

（2）确定包含所有可能的模型的假设空间，即学习模型的集合；

（3）确定模型选取的准则，即学习的策略；

（4）实现求解最优模型的算法，即学习的算法；

（5）通过学习方法选取最优模型；

（6）利用学习的最优模型对新数据进行预测分析。

模型评估和模型选择：

评估：训练误差和测试误差

选择：正则化和交叉验证（简单交叉验证【训：测=7:3】，s折交叉验证【切分为s个互不相交子集，用s-1训练剩下的测试；将这一过程对可能的s中选择重复进行；选出平均测试误差最小的模型】，留一交叉验证（s=n；数据缺乏使用））或简单分为训练集（训练模型），验证集（模型选择）和测试集（模型评估）

生成模型和判别模型：

生成方法：由数据学习联合概率分布P（x，y），然后求条件概率分布p（Y|X）作为预测的模型，即生成模型；典型的有：朴素贝叶斯法和隐马尔可夫模型。

特点：（1）还原出联合概率分布（2）学习收敛速度更快，即当样本数量增加时，学习到的模型可以更快的收敛于真实模型（3）当存在隐变量时，仍可以使用生成方法学习。

判别方法：由数据直接学习决策函数f（X）或条件概率分布P（Y|X）作为预测的模型，即判别模型。

特点：（1）直接学习条件概率或决策函数，直接面对预测，往往准确率更高（2）可以对数据进行各种程度的抽象、定义特征并使用特征，简化学习问题。

监督学习类型

分类问题

在监督学习中，当输出变量Y取有限个离散值时，X可以是离散也可以是连续的，预测问题便成为分类问题，本书主要讨论二分类问题。

评价分类器性能的指标一般是分类准确率。

为了解决正负样本不平衡问题，引入精确率与召回率。

“TP-将正类预测为正类数；FN-将正类预测为负类数；FP-将负类预测为正类数；TN-将负类预测为负类数”

精确率定义为：P=TP/（TP+FP）召回率定义为：P=TP/（TP+FN）

但两个指标不好选模型，因此引入F1指标。

F1=2PR/（P+R）

标注问题

“标注问题的输入是一个观测序列，输出是一个标记序列或状态序列。标注问题的目的在于学习一个模型，使它能够对观测序列给出标记序列作为预测”

标注问题常用的统计学习方法有：隐马尔可夫模型、条件随机场

实例：

1.自然语言处理中的词性标注：给定一个由单词组成的句子，对这个句子中的每一个单词进行词性标注，即对一个单词序列预测其对应的词性标记序列。（单词序列->词性标记序列）

2.信息抽取：从英文文章中抽取基本名词短语，为此要对文章进行标注。标记开始B，结束E，其他O。（英文句子->标记序列）

回归问题

（函数拟合）选择一条函数曲线使其很好的拟合已知数据且很好地预测未知数据。

最常用的损失函数是平方损失函数，此时可用最小二乘法($\theta=(x^T*X)^{-1}*X^T*y$)或梯度下降法求解。