林軒田机器学习基石笔记(第6节)

第5节主要介绍了机器学习与统计学之间的关系,不用做太多了解,所以也可以跳过,直接进入本节。

今天主要学习的问题就是如何让机器解决是非题,仍然以银行发信用卡为例,就是根据客户提交的资料去判断要不要给该客户发放信用卡。

本节目标

第4节我们提到过,机器学习的过程是我们需要一个 f ,但我们不知道 f 长什么样,这时候我们就需要从数据中学习,但是机器学习往往得到的结果很我们所期望的有些误差,其实机器学习得到的结果会是一个函数集合,而不是只得到一个函数,我们把这个函数集合叫做假设集(hypothesis),然后我们再从这个函数集合中找到一个g,使得 g≈f 。这就是机器学习的目标。过程如下:

其中 和 的关系如右图:

但是现在问题来了,我们并不知道假设集长啥样子,所以这也是本节课要讨论的内容,那就是找出的样子。

具体讲解

依然是信用卡发放的例子,在这个例子里我们把每一个参考因素作为一个集合 X ,其中就是具体的参考因素(例如性别、年龄、收入等)。

然后我们为每一个因素设置权重w,把权重值与该参数相乘,并把乘积全部加起来,再减去门槛值threshold(门槛值其实就是我们设定的最低标准,超过该标准的都可以发放信用卡),数学表达如下:

为了进一步用数学来描述,变成一个是非题,我们把上面的式子变为如下:

h(x)的计算结果是+1则表示发放信用卡,计算结果是-1则不发放。h(x)也叫做感知器Perceptron,也叫做神经元。

这里涉及到一个数学概念符号函数sign假设 y=sign(x) 当x>0,y=+1;当x=0,y=0;x<0,y=-1.

上面的公式,我们进一步进行简化成下面的样子:

简化过程是把门槛值-threshold看成一个权重值然后乘以+1,并把+1看成然后整个式子就可以缩成下标 i 从0开始(之前从1开始)。然后还不够,我们又把多个看成一个整体,最后变成:

那么上面的函数h(x)在几何中是长什么样子的呢?(其实这一部分我不怎么理解)

根据上一节的定义,Xn表示信用卡客户发放考虑维度(大X里还有很多小x,例如性别、年龄、收入等),Yn表示+1或者-1,其中+1表示圈圈,-1表示叉叉,如右图:,而h(x)表示一条条直线,把圈圈和叉叉分在不同的两边,如下图:

=================================================================================

加入我们

这节的后半部分我真的是一脸懵逼,我差点把符号函数看成是正弦函数,欢迎大家加入Q群讨论:463255841

猜你喜欢

转载自blog.csdn.net/zhangdongren/article/details/81409457
今日推荐