统计学习方法 -- 方法概论（1）

站在巨人肩上

统计学习

统计学习的特点

统计学习是关于计算机基于数据构建概率统计模型并运行模型对数据进行预测与分析的一门学科

统计学习的特点: 以计算机及网络为平台; 以数据为研究对象; 目的是对数据进行预测以及分析; 以方法为中心构建模型以及应用模型; 概率论统计学信息论信息理论最优化理论交叉学科

统计学习对象是数据 — 连续变量离散变量
目的: 用于数据进行预测与分析
方法: 监督学习非监督学习半监督学习强化学习

实现统计学习方法的步骤:: 训练数据集合（有限数据集）; 确定包含所有可能的模型的假设空间学习模型的集合; 确定模型选择的准则即学习的策略; 实现求解最优模型的算法学习的算法; 通过学习方法选择最优模型; 利用学习的最优模型对新数据进行预测及分析
统计学习研究: 统计学习方法; 统计学习理论; 统计学习应用

监督学习

监督学习在历史数据(历史经验先验数据)的基础上学习一个模型使得模型能够有任意给定的输入对其相应的输出做一个好的预测

基本概率

输入空间输出空间特征空间: 输入空间: 将输入所有可能取值的集合输入空间
输出空间: 将输出所有可能取值的集合输出空间
特征空间: 每个具体的输入是一个实例通常由特征向量表示所有特征向量存在的空间为特征空间
输入实例x的特征向量记做:
$x = (x^{(1)}, x^{(2)},x^{(3)}, .... , x^{(n)}).T$
$x^{(i)}$ 表示x第i个特征 $x_i$ 表示多个输入变量的第i个
监督学习从训练数据(training data)集合中学习模型对测试数据进行预测·
训练集: $T={(x_1, y_1),(x_2, y_2),(x_3, y_3),....,(x_i, y_i)}.T$
根据输入变量输出变量的不同类型对预测任务进行区分: 输入变量与输出变量均为连续变量回归问题
输出变量为有限个离散变量的预测问题分类问题
输入变量与输出变量均为变量序列的预测问题称为标注问题

联合概率分布

联合概率分布简称为联合分布是两个及两个以上随机变量组成的随机变量的概率分布

实质上来说是从假设 – 思考 – 验证 – 迭代循环的数学推理过程
监督学习(supervised learning)：假设输入与输出的随机变量 X Y 遵循联合概率分布具体的分布未知训练数据与测试数据被看做依联合概率分布 $p(X,Y)$ 独立同分布产生

即:假设数据存在一定规律 X和Y具有联合分布的假设就是监督学习关于数据的基本假设
假设空间: — 目标找到最好的模型
— 模型属于由输入空间到输出空间的映射的集合
(可以简单比喻为:输入空间与输出空间之间所有可能规律的集合)

统计学习三要素: 方法 =模型+策略+算法

模型:

1.考虑问题学习什么样的模型
2.模型就是所要学习的条件概率分布或决策函数
3.模型的假设空间包含所有可能的条件概率或决策函数
4.假设空间 $F = {f|(Y=f(X)} F = {f|Y=f\theta(x) , \theta \in R^n }$

策略

有了假设空间从中选择最优模型
考虑使用什么样的准则学习或选择最优的模型
引入 – 损失函数风险函数

1.损失函数风险函数: 损失函数度量模型一次预测的好坏
风险函数度量平均意义下的模型预测的好坏
面对问题: 在假设空间 $F$ 中选取模型f 作为决策函数对给定的输入X Y 输出Y 这个预测值与实际可能一致也可能不一致
因此为了解决此问题引入损失函数与风险函数
用损失函数度量预测错误的程度
一般形式下的损失函数: 是 $f(x)$ 和Y的非负实值函数记做 $L(Y, f(x))$
常用损失函数
（1）0 - 1loss function ：预测正确为0 错误记做1
（2）平方损失函数：预测值与实际值之差距离度量欧式距离
（3）绝对损失函数：预测值与实际值之间距离度量出租车距离
（3）对数损失函数： $-log(P(Y|X)$

损失函数的期望是 : 损失函数越小模型就越好
所以损失函数的期望是 $R_{\exp(f)} = E_p[L(Y, f(x)]=\int_{x\times y}L(y, f(x)P(x,y)dxdy$
这是理论上模型关于联合分布的平均意义下的损失称为风险函数也成为期望风险

引入经验风险: –期望风险是模型关于联合分布的期望损失; –经验风险是模型关于训练样本集的平均损失

大数定理: 当样本容量趋于无限大的时候经验风险趋向于期望损失
（极大似然估计）
经验风险:
给定数据集 $T = \{(x_1,y_1), (x_2,y_2), (x_3,y_3),...., (x_n,y_n)\}$
模型 $f(x)$ 关于数据集的平均损失称为经验风险:
$R_{emp}(f) = \frac {1}{N} \sum\limits_{i=1}^{n}L(y_{(i)}, f(x_{(i)}))$

使用经验风险估计期望风险往往是误差较大的为了使得其与期望风险更加相近
引入 – 经验风险最小化与结构风险最大化

2.经验风险最小化与结构风险最小化: 在假设空间代价函数以及训练数据集确定的情况下经验风险的函数式可以确定
经验风险最小的模型就是最优模型
求解最优化问题:
$\min\limits_{f\in F}\frac {1}{N} \sum\limits_{i=1}^{n}L(y_{(i)}, f(x_{(i)}))$
F为假设空间

经验风险最小化适用于:大样本数据集例如极大似然估计频率近乎于规律映射

结构风险最小化: 当时当样本容量过小时:
经验风险最小化往往会产生过拟合现象这个时候需要引入结构风险最小化（正则化）
结构风险是在经验风险上加上表示模型复杂度的正则化项 – 罚项
在假设空间代价函数以及训练数据集确定的情况下结构风险的函数式可以确定:
$R_{srm}(f) = \frac {1}{N} \sum\limits_{i=1}^{n}L(y_{(i)}, f(x_{(i)})) + \lambda J(f)$
$\lambda J(f)$ 为模型的复杂度是一个罚项意为模型越复杂复杂度 $\lambda J(f)$ 就越大反之越小
$\lambda > 0$ 是系数用以权衡经验风险和模型复杂度
结构风险最小化的策略是认为: 结构风险最小的模型是最优模型
$\min\limits_{f\in F}\frac {1}{N} \sum\limits_{i=1}^{n}L(y_{(i)}, f(x_{(i)})) + \lambda J(f)$

贝叶斯估计中的最大后验概率估计就是结构风险最小化的经典例子

这里: 监督学习就变成了经验风险最小化与结构风险最小化的问题

算法

算法是指学习模型的具体计算方法
基于训练数据集从假设空间中选择最优模型
是利用计算机数值计算选择模型的具体code

番外：
逻辑回归与线性回归本质上是完全不同的
逻辑回归 – 追求目标函数最大化 $\max p(y=c_k | x;\theta)$ 似然函数最大化似然函数是一种关于统计模型中参数的函数表示模型的似然性梯度上升法
线性回归 – 追求代价函数最小化 $minJ(\theta)$ 梯度下降法

参考文献
《统计学习方法》李航