机器学习基石(林轩田)第十一章 笔记与感悟总结

11.1 Linear Models for Classification - Binary Classification

stochastic 随机的


linear classification是一个NP hard问题,因此如何找到一种方法,能够使相对容易的linear regression 和 logistics regression 来帮助求解linear classification,就比较有意义了。


我们想将error function稍稍整合一下,串起来。

对于linear classification而言,我们又两个动作,一是求出H,而是看err怎么样

我们用来表示,其中s是打分,y是真实的分类。 

因为y只有正负1取值的可能。

因此实际上的推导过程中,左右两侧同乘y,进行形式变换。

其中ys的物理意义是,y是正确的,s是打分,故相乘总体代表了correctness score


我们对logistics regression进行了缩放,目的是为了将其正好在(0,1)上相切。



最后能够证明,只要我们将logistic regression / linear classification做的很好,那么我们也能够将linear classification 做的很好。

  

因为linear regression的在两侧的变化实在是太大,因此往往只是用来做初始值的设置。



11.2 Linear Models for Classification - Stochastic Grad. Descent

PLA每一轮只需要看一个点,是否正确来进行模型的修正,故时间复杂度为O(1)。

logistic regression是要每一轮,要遍历所有的数据后再处理,故要花O(N)的时间复杂度。

我们想让logistics regression 和PLA一样的快!!!


我们看到logistics regression 的梯度方向是计算了所有的点。我们不想计算所有的点,只想计算一个点就足够了。

技术性手段,将用随机抽样的方法来进行替换。我们只抽取一个数据,用他来代替总体的平均。

这个数据叫做随机梯度。


随机梯度可以看成是真实的梯度方向和噪音方向的加权和。

随机梯度的好处在于简单并且耗费低,适用于大数据和在线学习、

坏处是不稳定。


yita 是一种经验值,一般选择为0.1。






11.3 Linear Models for Classification - Stochastic Grad. Descent

我们如何从是非题变成多类别的选择题?

比如我们做四个类别的辨识。

思路是不断的进行二分类。

但是有不好的地方。

例如上面的三角 两边都说是自己。

中间的正方形区域都说不是自己。


我们想用逻辑回归方式,用可能性来度量。

注意最后的 是灰色的 是logistics 函数,是一个单调的,再求最大值的时候可以不用经过这一步。


OVA, 一个类别对其他所有类别的一种。把多类别的问题变成了多个二分类的问题。

好处:很有效率,很快,应用广。

坏处:类别太多,100个类别,我们把o当成一个类别,其他全是x的话,很容易造成logistics regression选择全部认为是x,这种情况的发生。

延伸:将会讲一些方法克服这些问题。




11.4 Linear Models for Classification - Multiclass via Binary

我们想的是,两个两个的比较,不要1和其他比较。4个不同的,两两比较总共比较6次。

但是我们如何知道那些重叠区域,到底属于啥呢?

回答是用投票的方式选择最有可能,属于哪一个类。


OVO,一对一的比较、

优点:很有效率,虽然比较次数多,但是每轮比较的少。同时应用比较广泛。

坏处:存储空间会加多。会变慢



猜你喜欢

转载自blog.csdn.net/jason__liang/article/details/80464193