记录-统计学习方法（第一章）

一、统计学习

统计学习的目的

统计学习的方法有哪些

统计学习方法的三要素

统计学习方法的使用步骤

统计学习方法、统计学习理论、统计学习应用的概念

统计学习在科学技术中的重要性

二、监督学习

输入空间、输出空间以及特征空间

回归问题、分类问题以及标注问题

联合概率分布

假设函数

监督学习的基本模型

什么是联合概率分布?

如P(x，y)，x与y同时发生的概率分布

三、统计学习三要素

方法=模型+策略+算法

模型

模型的假设空间以及模型的两种表现形式

策略

损失函数与风险函数(期望损失)

损失函数度量模型一次预测的好坏

损失函数的期望是风险函数，风险函数度量平均意义下模型预测的好坏

经验风险函数与结构风险函数

什么是期望?

什么是泛函?

泛函，泛函是函数的函数，函数的值由自变量的选取而确定，泛函的值是由自变量函数确定的，泛函的自变量称为宗量。

什么是先验概率以及后验概率，贝叶斯估计中的最大后验概率估计(MAP)又是什么?

算法

考虑用什么样的计算方法求解最优模型

四、模型评估与模型选择

训练误差与测试误差

过拟合和模型选择

五、正则化与交叉验证

正则化
交叉验证
1. 简单交叉验证
2. S折交叉验证
3. 留一交叉验证

什么是范数?

什么是奥卡姆剃刀原理?

为什么正则化项对应于先验概率?

六、泛化能力

泛化误差

期望风险等于泛化误差
泛化误差上界

从假设空间中选取一个函数，当所选参数不同时，该函数的泛化误差会不同。但我们知道我们期望得到的泛化误差一定小于或等于我们选定函数的泛化误差的最大值，这个最大值与训练误差成正比，训练误差越小，它也越小，但如果过拟合时训练误差足够的小时，它不应该越小而应该越大，或者如果当训练集数据足够的多的情况下，它一定会趋于0。因此泛化能力上界和训练误差、复杂度成正比，和训练集数量成反比。

七、生成模型与判别模型

监督学习又分为生成方法和判别方法，所学到的模型分别称为生成模型和判别模型。
什么是生成模型与判别模型。

从概率分布的角度考虑，对于一堆样本数据，每个均有特征Xi对应分类标记yi。

生成模型：学习得到联合概率分布P(x,y)，即特征x和标记y共同出现的概率，然后求条件概率分布。能够学习到数据生成的机制。

判别模型：学习得到条件概率分布P(y|x)，即在特征x出现的情况下标记y出现的概率。

数据要求：生成模型需要的数据量比较大，能够较好地估计概率密度；而判别模型对数据样本量的要求没有那么多。
生成模型与判别模型的优缺点

八、分类问题

分类器

准确率、精确率以及召回率

$F_1$ 值

九、标注问题

什么是标注问题?

标注问题是分类问题的一个推广，它的输入与输出皆为序列。标注学习的目标类似于给一个物品打上相应的多个标签，比如一个长JJ的人你能够打上多个标签：男人、雄性哺乳动物。

十、回归问题

一元回归与多元回归

线性回归与非线性回归

查看更多：http://xingtu.info