Introduction to Statistical Learning Theory
下文只会挑一些可以起到检验自学效果的并且有趣的地方来说明,系统的学习请前往课程资源链接。 【毕竟时间有限,和妹子吃鸡更要紧
同自学的可以相互交流
一起从“kind of understanding”
到“actual understanding”.
课程资源
机器学习课程知乎问答
下文ppt截图也来自链接里NYU的课件。
三个空间
- Input space:
- Action space:
- Outcome space:
一个重要问题
- Outcome 是否独立于Action ?
一般来说预测结果是不会影响实际的结果的,但是情况也并不是总是这样。在课堂上就有同学提出这样的例子:下棋。两个人下棋,每个落子可以看成action,这是会影响最终这局棋的结果的。又比如投资股市,预测后,还未进行投资时,此时整体股市未变,但是根据预测进行了投资,则会影响股市,此时action和outcome便不互相独立。
一个重要假设
- Action 不影响 Outcome
这不就是和刚刚的问题的肯定的回答吗?对是的。在这里强调一下的是由于后面的理论都是基于这个假设的。而且在解决一般问题的思路都是把不独立的问题转化成或近似看成独立的问题。
一个重要但永远不知道的分布
- a data generating distribution
所有的 输入/输出对(x,y)都是由
生成的。
这个其实就用到了input/outcome独立假设,如果是不独立的话,就action会改变这个分布,那么数据的生成方式就要改变。(这个在YouTube教学视频中最后有学生问到)
两个函数
- Prediction function 和 loss function
prediction function 是input space 到action space 的映射
loss function 来评估单个action和对应outcome的偏差
两个risk
- Empirical Risk 和 Risk
- empirical risk 是随机变量(random variable)吗?【这期下半部分给答案】
- empirical risk 是 risk 的无偏估计(unbiased estimator)吗?【这期下半给答案】
过拟合(overfitting)
Empirical Risk 远小于 Risk
假设空间(hypothesis)
- 假设空间具体是什么?
对于线性回归来说,假设空间就是所有的线性函数。多项式回归也是一种假设空间,但我们所联想到的假设空间可是容易不应该被函数具体的表达式所局限。函数形式也不过是表达了自变量之间的关系而已。我们常用的树结构(trees)也是假设空间。
- 假设空间干吗的?
假设空间是为了实际解决问题的,可以根据问题特征,减少搜索范围,并可以解决过拟合问题使泛化。