统计学习方法读书笔记(一)

这本书算是机器学习爱好者入门的一本书籍吧。接下来就介绍一下几个基本的概念(科普):
统计学习组成:监督学习,非监督学习,半监督学习和强化学习等。
统计学习三要素:模型,策略,算法。
主要讨论监督学习,监督学习就是用训练数据集中学习,用学习到的模型预测数据。
输入空间与输出空间:将输入与输出所有可能的集合定义为输入空间和输出空间。
假设空间:模型属于由输入空间到输出空间的映射的集合。
输入变量用X表示,输出空间用Y表示。
假设输入与输出的随机变量X与Y遵循联合概率分布:P(X,Y),假定这一分布存在.
训练数据集用T={(x1,y1),(x2,y2)….(xn,yn)}表示。
监督学习模型:
这里写图片描述
通过学习得到的模型为条件概率分布和决策函数:P(Y|X) 或Y=f(X)
(什么是条件概率?后面补充).
然后用学习得到的模型预测得到Y=arg maxP(Y(n+1)|X(n+1))或Y=f(X(n+1))
在假设空间中寻找最适合的模型,这其中可能会出现学习误差和预测误差,这里引入两种度量模型好坏的函数:损失函数,风险函数。
损失函数有以下几种:
0-1损失函数:
这里写图片描述
平方损失函数:
这里写图片描述
绝对损失函数:
这里写图片描述
对数损失函数:
这里写图片描述
损失函数的期望:
这里写图片描述
给定一个数据集:
这里写图片描述
由模型f(X)训练的数据得出平均损失称为经验风险或经验损失R(emp):
这里写图片描述
学习的重点就是使得损失函数的期望和风险函数最小化。
由于联合分布未知,只能选择使得风险函数最小化。
最小化公式如下(F是假设空间):
F是假设空间
最小化常用的一个方法就是极大释然估计(MLP)(什么是极大释然估计?后面补充)
有时候为了防止寻找到的模型过于“匹配”。就是在已给数据中表现的很好,但是在未知数据中预测的太差,我们在风险函数种加入正则化项(regularizer),目的就是防止过拟合。这样的出来的等式我们就叫做结构风险函数(R(srm)):
这里写图片描述
所以求最优模型就是求解结构风险函数最小化问题;跟上面求风险函数最小化问题一样,结构风险最小化求解常用的方法就是最大后验概率(MAP)(什么是最大后验概率?后面补充)
最后一个概念:泛化能力。
泛化能力就是指寻找到的模型对数据的预测能力。一般用泛化误差表示如下:这里写图片描述
其实就是前面提到的期望风险函数。
基本概念就说到这里,接下来进入重点,谈谈很古老的二类线性分类模型。

是在太忙了,抱歉;
联合分布:https://www.cnblogs.com/vamei/p/3224111.html
条件概率:http://www.cnblogs.com/vamei/p/3195381.html
极大似然估计:http://blog.csdn.net/zengxiantao1994/article/details/72787849
最大后验概率:http://www.cnblogs.com/sylvanas2012/p/5058065.html
这都是我认为讲的比较好的,思路清晰,本来想自己推的,结果这几天乱七八糟的事情耽搁了,是在抱歉。下一篇是感知机,一个很古老的二类线性分类器。

猜你喜欢

转载自blog.csdn.net/weixin_38347387/article/details/78571377