线性模型和逻辑回归

作者:离散木木夕

欢迎大家给出宝贵的建议!


线性模型和逻辑回归


一、前言


      和以前一样,主要目的还是整理总结自己的思路。同时,初学者也可以看看我的思路,希望可以得到一定的启发。当然希望能给我提出点建议,或者问题,我愿意在学习过程中和大家交流。



二、正题


接下来进入正题,今天我要讲的是,线性模型和逻辑回归。我之所以想写这篇博客,是因为我从视频上学习到之后,觉得这个方式简单易懂,刚好上课分到的任务也是讲这一章,所以查阅了不少资料,准备了一段时间。


首先,我们要学习这门课程,我想,应该先了解一下什么是回归分类

分类和回归区别在于输出变量的类型

(1)定量输出称为回归,或者说是连续变量的预测

(2)定性输出称为分类,或者说是离散变量预测


举个例子:

预测明天的气温是多少度,这是一个回归任务。

预测明天是阴、晴还是雨,就是一个分类任务。


综上:

回归问题和分类问题的本质是一样的,不同仅在于他们的输出的取值范围不同。分类问题中,输出离散化;而在回归问题中,输出连续化。


1.线性回归:是一种监督学习下的线性模型


1.1下面结合一个例子来做分析:


我们去银行贷款,至于银行要贷款多少钱给你,要根据每个客户的条件来定。下面就取两个属性:工资和年龄。假设根据银行规定,如下图所示:


 

让属性工资为x1,属性年龄为x2,因为每个属性占的权重不一样,分别用  来表示,不同的特征乘以不同的权重,组合起来,得到最终的结果。

至于这个公式怎么来的?就是假定了第三个属性x3,且值全为1,与权重  相乘。所以得到下面这个式子。

但是通过机器学习建立模型之后,预测得出来的结果可能与上图给出的额度有出入,预测值可能偏高也可能偏低,但是大部分预测误差不会太离谱,可控范围。所以这就存在一个误差我们假定为 

所以就得出下面的公式  ,y(i)为真实值,h(x)为预测值。


误差是独立并且具有相同的分布通常认为服从均值为0方差为 的高斯分布(正态分布)。

高斯分布图:


大部分都集中在中间那部分,只有小部分在两边。


下面根据我自己的理解解析一下这句话:

独立:每个样本都是单独的,独立的,没有联系。我去银行借钱和你去银行借钱没有关系。

相同的分布:指定一个误差范围,认为是高斯分布。

均值为0        

方差:,这个是根据输入来定的,所以我们暂定。



1.2 公式及其推导






下面解析:


意思是找出什么样的值和x(i)组合完之后越接近于y(i)的概率值越大的。

这里

expe

P(e^(i))可以看成f(x)

e^(i)可以看成x

是似然函数。

表示累乘。


所以我们就想要求最大,这个式子是累乘的,计算难度很大,我们要化简吧。

这时候我们推出了一个对数似然函数。因为对数里面值的相乘等于相加吧。这样就好算多了。


累乘难计算把它化简:



Loss函数原型:求极值




这里涉及了矩阵求导,可以留言,我可以解析一下。



2.逻辑回归(LR):


2.1 公式及视图





取值区间:

x∈-∞,+∞

y∈  [0,1]

大于0.5,属于1这个类别。

小于0.5,属于0这个类别。


2.2 公式求导:




注意

逻辑回归虽然叫回归,但是实际上是个分类的算法。是最经典的解决二分类问题的算法。从来不用作回归的!


猜你喜欢

转载自blog.csdn.net/jonyhwang/article/details/79002528