林轩田机器学习基石笔记（第4节）

前面几节主要讲得是机器学习的概念，这里就不再赘述了，直接从第4节开始讲。

看下面这张表，假设它就是银行发信用卡的参考因素，我们的目标就是让机器能够从这些参考因素中评定某一个客户是否符合信用卡发卡标准。

那我们就有以下的输入与输出：

其中表示输入，表示输入的是客户的基本信息（即表格中的数据），表示输出，即发卡或者不发卡。

现在我们的目标是找出一个函数，当把 x 输入到这个函数的时候会输出 y ，这个函数就叫做目标函数f，形式如下：

注意，该目标函数我们是未知的，这也正是我们需要使用机器学习的原因，机器学习的目标是就要找到这样的一个函数。

那我们如何才能得到这个函数呢？我们需要的是找到一堆数据，然后让机器从这堆数据里自己去学习，表示如下：

以发信用卡为例，这些数据其实就是银行过去收集的数据，一共有N个客户，其中、、表示客户的基本信息（如年龄、性别、年收入等），、、表示发卡还是不发卡。

虽然目标函数f是我们主观上想要得到的，但是机器学习往往得到的结果很我们所期望的有些误差，其实机器学习得到的结果会是一个函数集合，而不是只得到一个函数，我们把这个函数集合叫做假设（hypothesis），形式如下：

其中集合H叫做假设（hypothesis），g就是从中找到的，hypothesis如下：

然后，我们还需要从这个假设（hypothesis）中找出一个最好的函数g，这个g就是我们最终学到的函数。如下：

整个过程可以用一个数学表达式来表示，如下：

其中from表示我们所期望的f函数，ML表示机器学习，g表示最终得到的结果。

这里特别提醒一下，我们要求g接近于f，即：

但是还有个巨大的坑，那就是其实我们也不知道 f 是长什么样的！那该怎么办？怎么办？接下来的课程我们就是要解决这个问题，介绍如何从hypothesis中找到最好的g，明白这一点对后面的学习很重要，要不然你会莫名其妙，不知所以然！

=================================================================

有兴趣的朋友可以加入我建的机器学习交流QQ群：463255841