李航-统计学习方法-笔记-1:统计学习方法概论

统计学习:

统计学习由监督学习、非监督学习、半监督学习和强化学习等组成,本书主要讨论监督学习。

监督学习:

监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。

方法=模型+策略+算法

统计学习三要素之一:模型

在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。

统计学习三要素之二:策略

“策略即从假设空间中选取参数最优模型,模型的分类或预测结果与实际情况的误差越小,模型就越好”

损失函数度量模型一次预测的好坏,风险函数(期望损失)即损失函数的期望用来度量平均意义下模型预测的好坏,但风险函数无法计算,模型关于训练数据集的平均损失称为经验风险(经验损失),当样本数量无限大时,经验损失就趋近于期望损失,但样本数目有限。

经验风险最小化策略:认为经验风险最小的模型是最优模型。样本容量足够大时学习效果好,但样本容量很小时,容易产生过拟合。例极大似然估计。

结构风险最小化(正则化)策略:为了防止过拟合提出的,在经验风险的基础上加上表示模型复杂度的罚项。用大于等于0的系数平衡经验风险和模型复杂度的关系。例贝叶斯估计,正则化是结构风险最小化策略的实现,作用是选择经验风险和模型复杂度同时较小的模型,正则化符合奥卡姆剃刀原理(简单有效“如无必要,勿增实体”)。

这样监督学习问题就转变成为经验风险或结构风险的最优化问题。

统计学习三要素之三:算法

“算法是指学习模型的具体计算方法,也就是如何求解全局最优解,并使求解过程高效,本质就是计算机算法,怎么去求数学问题的最优化解”

正规方程或梯度下降

实现统计学习方法的步骤如下:

(1)得到一个有限的训练数据集合;

(2)确定包含所有可能的模型的假设空间,即学习模型的集合;

(3)确定模型选取的准则,即学习的策略;

(4)实现求解最优模型的算法,即学习的算法;

(5)通过学习方法选取最优模型;

(6)利用学习的最优模型对新数据进行预测分析。

模型评估和模型选择:

评估:训练误差和测试误差

选择:正则化和交叉验证(简单交叉验证【训:测=7:3】,s折交叉验证【切分为s个互不相交子集,用s-1训练剩下的测试;将这一过程对可能的s中选择重复进行;选出平均测试误差最小的模型】,留一交叉验证(s=n;数据缺乏使用))或简单分为训练集(训练模型),验证集(模型选择)和测试集(模型评估)

 生成模型和判别模型:

生成方法:由数据学习联合概率分布P(x,y),然后求条件概率分布p(Y|X)作为预测的模型,即生成模型;典型的有:朴素贝叶斯法和隐马尔可夫模型。

特点:(1)还原出联合概率分布(2)学习收敛速度更快,即当样本数量增加时,学习到的模型可以更快的收敛于真实模型(3)当存在隐变量时,仍可以使用生成方法学习。

判别方法:由数据直接学习决策函数f(X)或条件概率分布P(Y|X)作为预测的模型,即判别模型。

特点:(1)直接学习条件概率或决策函数,直接面对预测,往往准确率更高(2)可以对数据进行各种程度的抽象、定义特征并使用特征,简化学习问题。

监督学习类型

分类问题

在监督学习中,当输出变量Y取有限个离散值时,X可以是离散也可以是连续的,预测问题便成为分类问题,本书主要讨论二分类问题。

评价分类器性能的指标一般是分类准确率。

为了解决正负样本不平衡问题,引入精确率与召回率。

“TP-将正类预测为正类数;FN-将正类预测为负类数;FP-将负类预测为正类数;TN-将负类预测为负类数”

精确率定义为:P=TP/(TP+FP)召回率定义为:P=TP/(TP+FN)

但两个指标不好选模型,因此引入F1指标。

F1=2PR/(P+R)

标注问题

“标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目的在于学习一个模型,使它能够对观测序列给出标记序列作为预测”

标注问题常用的统计学习方法有:隐马尔可夫模型、条件随机场

实例:

1.自然语言处理中的词性标注:给定一个由单词组成的句子,对这个句子中的每一个单词进行词性标注,即对一个单词序列预测其对应的词性标记序列。(单词序列->词性标记序列)

2.信息抽取:从英文文章中抽取基本名词短语,为此要对文章进行标注。标记开始B,结束E,其他O。(英文句子->标记序列)

回归问题

(函数拟合)选择一条函数曲线使其很好的拟合已知数据且很好地预测未知数据。

最常用的损失函数是平方损失函数,此时可用最小二乘法($\theta=(x^T*X)^{-1}*X^T*y$)或梯度下降法求解。

猜你喜欢

转载自www.cnblogs.com/ditingz/p/11736482.html