统计学习方法读书笔记（一）

这本书算是机器学习爱好者入门的一本书籍吧。接下来就介绍一下几个基本的概念（科普）：
统计学习组成：监督学习，非监督学习，半监督学习和强化学习等。
统计学习三要素：模型，策略，算法。
主要讨论监督学习，监督学习就是用训练数据集中学习，用学习到的模型预测数据。
输入空间与输出空间：将输入与输出所有可能的集合定义为输入空间和输出空间。
假设空间：模型属于由输入空间到输出空间的映射的集合。
输入变量用X表示，输出空间用Y表示。
假设输入与输出的随机变量X与Y遵循联合概率分布:P(X,Y),假定这一分布存在.
训练数据集用T={(x1,y1),(x2,y2)….(xn,yn)}表示。
监督学习模型：
这里写图片描述
通过学习得到的模型为条件概率分布和决策函数：P(Y|X) 或Y=f(X)
(什么是条件概率？后面补充).
然后用学习得到的模型预测得到Y=arg maxP(Y(n+1)|X(n+1))或Y=f(X(n+1))
在假设空间中寻找最适合的模型，这其中可能会出现学习误差和预测误差，这里引入两种度量模型好坏的函数：损失函数，风险函数。
损失函数有以下几种：
0-1损失函数：
这里写图片描述
平方损失函数：

绝对损失函数：

对数损失函数：

损失函数的期望：

给定一个数据集：

由模型f(X)训练的数据得出平均损失称为经验风险或经验损失R(emp):

学习的重点就是使得损失函数的期望和风险函数最小化。
由于联合分布未知，只能选择使得风险函数最小化。
最小化公式如下（F是假设空间）：

最小化常用的一个方法就是极大释然估计(MLP)（什么是极大释然估计？后面补充）
有时候为了防止寻找到的模型过于“匹配”。就是在已给数据中表现的很好，但是在未知数据中预测的太差，我们在风险函数种加入正则化项(regularizer)，目的就是防止过拟合。这样的出来的等式我们就叫做结构风险函数（R(srm)）：
这里写图片描述
所以求最优模型就是求解结构风险函数最小化问题；跟上面求风险函数最小化问题一样，结构风险最小化求解常用的方法就是最大后验概率（MAP）(什么是最大后验概率？后面补充)
最后一个概念：泛化能力。
泛化能力就是指寻找到的模型对数据的预测能力。一般用泛化误差表示如下：这里写图片描述
其实就是前面提到的期望风险函数。
基本概念就说到这里，接下来进入重点，谈谈很古老的二类线性分类模型。

是在太忙了，抱歉；
联合分布：https://www.cnblogs.com/vamei/p/3224111.html
条件概率：http://www.cnblogs.com/vamei/p/3195381.html
极大似然估计：http://blog.csdn.net/zengxiantao1994/article/details/72787849
最大后验概率:http://www.cnblogs.com/sylvanas2012/p/5058065.html
这都是我认为讲的比较好的，思路清晰，本来想自己推的，结果这几天乱七八糟的事情耽搁了，是在抱歉。下一篇是感知机，一个很古老的二类线性分类器。

统计学习方法读书笔记（一）

猜你喜欢