- 统计学习方法概论
一、下面对统计学习方法书中的第一章做一个简单的总结
- 首先统计学习是基于数据构建概率模型并运用模型对数据进行预测和分析的一门学科,以数据为对象、方法为中心、目的是对数据进行预测和分析;
- 统计学习中关于数据的假设是数据具有一定的统计规律性,并且数据之间是独立同分布的;
- 统计学习的方法通常包括模型、策略、算法(以监督学习为例):
(1)首先根据训练集确定可能模型的假设空间,假设空间可定义为决策函数(1)或者条件概率(2)的集合,其中假设空间也可以用参数相同决定的函数族(3)和(4)来表示
运用算法进行学习的过程其实就是选择最优参数的过程
(2)基于于假设空间需要确定按照什么样的准则来学习最优的模型,损失函数值越小则模型越好,因为联合概率分布P(X,Y)未知,损失函数期望无法求出,这里我们是要用经验风险来逼近,基于大数定律,当样本容量趋于无穷,经验风险趋近于期望风险,通过经验风险最小化或者结构风险(例如L1正则化、L2正则化)最小化来当做学习的目标。
(3)算法其实是根据目标来进行寻优搜索参数的过程,例如经常用到的最小二乘法
二、疑惑点:
这里对于泛化误差上界的证明题有一些困惑可查看:https://blog.csdn.net/winter_evening/article/details/70196011#commentsedit
上对泛化误差的证明
- 课后习题
课后习题具体请见
https://blog.csdn.net/familyshizhouna/article/details/70160782