ZiSeoi的西瓜书笔记（一）：第一章绪论

写在前面

这里是 ZiSeoi 的第一篇博客。想了很久，最终还是打算先从大多数人机器学习的启蒙读物 西瓜书 的第一章写起，分享一点自己的读书心得。本人虽然已经对机器学习有过一定了解，也参加过一些大大小小的比赛，但理论基础才是一个人实力的根基，无论如何扎实也不为过。

好啦，废话不多说。下面是正题。本人的读书笔记主要还是聊一聊自己的理解，对于较为基础的定义也不会作过多阐述。若有不当之处，各位见谅。当然也欢迎大家指正哈哈。

什么是机器学习

西瓜书对机器学习目标的描述很明确，那就是利用经验完成任务。机器学习的所有算法，都是建立在对数据中包含的各种特征的拟合之上。换言之，机器学习模型的学习不含对知识的分析与推理，就像做题的时候，机器学习方式并没有对已有知识的逻辑推理过程，而是强行通过题海战术找到题目的规律。

机器如何学习

机器学习一般来说分为以下四个步骤：

获取数据
训练
得到模型
测试

西瓜书的绪论部分还提到了机器学习中的一些基本概念。例如分类(classification)与回归(regression)，监督学习(supervised learning)与非监督学习(unsupervised learning)，假设(hypoyhesis)与真相(ground-truth)，奥卡姆剃刀与**“没有免费的午餐”定理**(No Free Lunch Theorem)。下面会对这些概念谈一谈本人的理解。

分类与回归

回归与分类的界限其实比较模糊，例如softmax函数有人称为分类器，也有人称为回归器。有的人还喜欢把回归称作软分类。个人认为回归与分类区别仅仅在于最终输出值是否离散。
对于一个连续的回归值，将其归一化后通过设置一个阈值(threshold)，就可以把一个回归器变为一个分类器。

对于一个离散的分类值，如果可以这个类别的值代表了某种连续的分布，同样也可以将这个分类器转化为回归器。

监督学习与非监督学习

对于监督学习的过程简单的理解，就是做完题能对答案，然后修改总结。而非监督学习就是在做选择题的时候找出选项之间的规律，比如三短一长，三长一短，两短两长/Doge。

假设与真相

简单来说，假设就是模型的输出结果，而真相就是实际值。而假设与真相的差距，就是模型训练时参数调整的依据。

奥卡姆剃刀与“没有免费的午餐”定理

奥卡姆剃刀简单来说，就是如无必要，勿增实体。如果对于同一现象有两种不同的假说，我们应该采取比较简单的那一种。

比如地心说跟日心说，根据运动相对性，其实他们都是对的。但是我们何必那么折腾呢？人生苦短，有时候简简单单才是真。

没有免费的午餐定理指的是对于一个学习算法A，若它在某问题上比学习算法B好，则A算法必然存在另一些问题，在这个问题上算法B要优于A。

因此要谈论算法的相对优劣，必须要具体问题具体分析，结合实际需求。

一点总结

绪论其实没有太多的内容可以聊，主要是对全书内容的一个开端。同时引出了一些基本概念。

本人以后会发布一些关于机器学习模型算法，自动控制算法的其他文章，也会聊一聊自己做的一些小项目，希望读者朋友们能够喜欢。